Comparison of machine learning algorithms for application in psychological and medical research

Graf, Ricarda

Comparison of machine learning algorithms for application in psychological and medical research

Modern machine-learning methods are less restrictive compared to well-established parametric models which assume properties frequently not met by data in the psychological and medical field. While machine-learning algorithms may be more computationally intensive and more complex to apply, they have become increasingly popular over the last two decades due to their flexibility, predictive accuracy, and suitability for the use in high-dimensional settings such as pattern recognition in medical images and genetic data, for example. However, their benefit compared to linear discriminant analysis (LDA) and the Cox proportional hazards (Cox-PH) model, methods traditionally applied to psychometric data with binary outcomes and medical data with time-to-event outcomes, respectively, is not clear. This thesis comprises two parts for comparing LDA and the Cox-PH model, respectively, to suitable machine-learning alternatives based on acknowledged guidelines for benchmarking studies andModern machine-learning methods are less restrictive compared to well-established parametric models which assume properties frequently not met by data in the psychological and medical field. While machine-learning algorithms may be more computationally intensive and more complex to apply, they have become increasingly popular over the last two decades due to their flexibility, predictive accuracy, and suitability for the use in high-dimensional settings such as pattern recognition in medical images and genetic data, for example. However, their benefit compared to linear discriminant analysis (LDA) and the Cox proportional hazards (Cox-PH) model, methods traditionally applied to psychometric data with binary outcomes and medical data with time-to-event outcomes, respectively, is not clear. This thesis comprises two parts for comparing LDA and the Cox-PH model, respectively, to suitable machine-learning alternatives based on acknowledged guidelines for benchmarking studies and performance measures. Furthermore, a new non-parametric alternative for prediction of patient-specific relative treatment effects (RTE) in data from randomized controlled trials (RCT) has been developed and compared to predictions based on the Cox model. The first part discusses the application of LDA for psychometric data. Psychological research often focusses on examining group differences in a multivariate set of numeric variables for which the normality assumption is doubtful. Moreover, longitudinal study designs enable the investigation of developmental trends but provide further challenges for data analysis due to additional temporal correlations. In psychology, LDA is traditionally used for predictions of group membership (classification) and for identifying those variables most relevant to group separation among a set of continuous correlated variables (description). Likert-scale questionnaires are a typical example of psychometric data to which LDA is applied and various real-world datasets were used as a reference in order to answer three research questions. First, a multivariate setting with variables measured at a single time point is considered. The performance of LDA is compared to various non-parametric supervised learning alternatives, which provide estimated probabilities of class membership in addition to class predictions, similar to LDA. Second, a multivariate setting with variables measured at multiple time points is considered. In a simulation study, existing extensions of LDA to repeated measures data that are robust to deviations from multivariate normality and a longitudinal support vector machine algorithm are compared to the original repeated-measures LDA which is based on the normality assumption. Third, a potentially more suitable post-hoc analysis of significant repeated-measures multivariate analysis of variance (MANOVA) results is presented. Repeated-measures MANOVA can be used to test for significant group, time, and group-time interaction effects, respectively. For longitudinal non-normally distributed psychometric data, it is appropriate to use a robust version of repeated-measures MANOVA such as done in (Voormolen et al., 2020). The authors examined significant differences between groups and across time points using univariate ANOVAs per variable as is typically done, although this approach ignors the multivariate aspect of the original analysis. Descriptive discriminant analysis (DDA) is often suggested as a more suitable post-hoc technique. Its use in repeated-measures data is demonstrated based on the psychometric data by Voormolen et al. (2020). Simulations of multivariate data assuming measurements at a single time point and various different underlying non-normal distributions show that the Random forest (RF) algorithm outperforms LDA in bimodal data with respect to overall performance, a measure simultaneously influenced by discrimination and calibration. For other distributions, RF outperformed LDA with respect to discrimination, but its calibration is usually worse. Even if LDA is outperformed in some scenarios, it is most often the second best performing method, and can still be recommended for the use in non-normally psychometric data. For multivariate repeated measures data, simulation results show that the traditional LDA based on the pooled covariance matrix estimate performs reasonably well with respect to the Youden index and predictive accuracy. Scenarios with identical group means, in which only group covariance matrices differ cannot be handled by the standard LDA approach or any of the alternatives. Application of DDA to repeated-measures data shows that significant repeated-measures ANOVA results may contain redundant information. The second part comprises two simulation studies for comparison of different versions of the Random survival forest (RSF) and the Cox-PH model for predictions of patient-specific survival probabilities and RTEs, respectively, in RCT data. RSF is a non-parametric method for time-to-event data which is based on predictions of an ensemble of trees, and can incorporate even complex relationships between covariates and the predicted outcome such as nonlinear patterns and interactions. Furthermore, the RSF does not assume proportional hazards such as the Cox-PH model. The RSF has already been found to have a better predictive performance in a number of observational study datasets. Therefore, the first simulation study is a neutral comparison study based on publicly available datasets from RCTs. Predictions of the Cox-PH model and the RSF using different splitting rules are compared using multiple performance measures chosen according to the TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis) recommendations. The second simulation study compares a new RF approach and the Cox-PH model that can be used for patient-specific RTE predictions. The new nonparametric method is based on the RF approach and uses the standardized difference in the Mann-Whitney effect as the splitting rule in order to divide the patient data into more homogeneous subgroups. Several performance measures used in the context of heterogeneous treatment effect (HTE) estimation are used to compare the algorithms' performance. Simulation for comparing patient-specific predictions of survival probabilities show that conclusions solely based on the C index, a rank-based measure of discrimination predominantly used in the literature for comparison of the Cox-PH and RSF model in real-world data, may be misleading. Overall performance is a measure affected by discrimination and model calibration at the same time. In general, measuring overall performance may be more suitable when comparing the RSF and Cox-PH approach, since its results seem more reasonable and balanced regarding many outlier values for the Cox-PH model regarding the C index. A second finding is that the standard log-rank RSF splitting rule despite giving reasonable results may be outperformed by alternative splitting rules, in particular in nonproportional hazards settings. Higher censoring rates affect the performance of the RSF model more in data without treatment-covariate interactions, while treatment-covariate interactions affect the Cox-PH model, in particular when the proportional hazards assumption is not fulfilled. In simulations for comparing patient-specific predictions of the RTE, the new RF approach most often performs better with respect to discrimination but worse with respect to calibration when compared to the Cox model approach, similar to the results of the first simulation study. However, the new RF method typically outperforms Cox regression for individual RTE prediction with respect to overall performance.…
Moderne Methoden des maschinellen Lernens sind weniger restriktiv verglichen mit etablierten parametrischen Modellen, welche von Annahmen ausgehen, die häufig nicht von den Daten im psychologischen und medizinischen Bereich erfüllt werden. Während Methoden des maschinellen Lernens rechenintensiver und aufwendiger in der Anwendung sein können, sind sie doch im Verlauf der letzten zwei Jahrzehnte immer beliebter geworden, u.a. wegen ihrer Flexibilität, Vorhersagegenauigkeit, und ihrer Eignung für hochdimensionale Datensätze, wie z.B. in der Mustererkennung in medizinischen Bildern oder genetischen Daten. Jedoch ist unklar, welchen Vorteil sie im Vergleich zur linearen Diskriminanzanalyse (LDA), angewendet auf psychometrische Daten mit binären abhängigen Variablen, und zum Cox-Regressionsmodell, angewendet auf medizinische Ereigniszeitdaten, haben. Diese Dissertation besteht aus zwei Teilen, in der die LDA bzw. das Cox-Regressionsmodell mit geeigneten alternativen Methoden desModerne Methoden des maschinellen Lernens sind weniger restriktiv verglichen mit etablierten parametrischen Modellen, welche von Annahmen ausgehen, die häufig nicht von den Daten im psychologischen und medizinischen Bereich erfüllt werden. Während Methoden des maschinellen Lernens rechenintensiver und aufwendiger in der Anwendung sein können, sind sie doch im Verlauf der letzten zwei Jahrzehnte immer beliebter geworden, u.a. wegen ihrer Flexibilität, Vorhersagegenauigkeit, und ihrer Eignung für hochdimensionale Datensätze, wie z.B. in der Mustererkennung in medizinischen Bildern oder genetischen Daten. Jedoch ist unklar, welchen Vorteil sie im Vergleich zur linearen Diskriminanzanalyse (LDA), angewendet auf psychometrische Daten mit binären abhängigen Variablen, und zum Cox-Regressionsmodell, angewendet auf medizinische Ereigniszeitdaten, haben. Diese Dissertation besteht aus zwei Teilen, in der die LDA bzw. das Cox-Regressionsmodell mit geeigneten alternativen Methoden des maschinellen Lernens, basierend auf anerkannten Richtlinien für Methodenvergleichsstudien und Performanzmaßen, verglichen werden. Außerdem wird eine neue nichtparametrische Alternative für die Vorhersage patientenspezifischer relativer Behandlungseffekte (RTE) in Daten aus randomisierten Kontrollstudien (RCT) entwickelt, und mit Vorhersagen basierend auf dem Cox-Regressionsmodell verglichen. Der erste Teil diskutiert die Anwendung der LDA in psychometrischen Daten. In der psychologischen Forschung steht oft die Untersuchung von Gruppenunterschieden bezüglich multivariater numerischer Variablen im Fokus, für welche die Normalverteilungsannahme fraglich ist. Zudem ermöglichen longitudinale Studiendesigns die Untersuchung zeitlicher Trends, welche aber aufgrund der Korrelation der Messungen zu einzelnen Zeitpunkten eine zusätzliche Herausforderung für die Datenanalyse darstellen. In der Psychologie wird die LDA traditionell für die Vorhersage der Gruppenzugehörigkeit (Klassifikation) und zur Identifizierung derjenigen kontinuierlichen, korrelierten Variablen, die am relevantesten zur Unterscheidung der Gruppen sind (Deskription), verwendet. Fragebögen basierend auf Likert-Skalen sind ein typisches Beispiel für psychometrische Daten, für die die LDA genutzt wird. Verschiedene reale Datensätze werden als Referenz genutzt, um drei wissenschaftliche Fragestellungen zu untersuchen. Zunächst geht es um Szenarien, in welchen multivariate Daten gemessen zu einem einzelnen Zeitpunkt betrachtet werden. Die Performanz der LDA wird mit verschiedenen nichtparametrischen Methoden des überwachten Lernens verglichen, welche, ebenso wie die LDA, die Wahrscheinlichkeiten für die Klassenzugehörigkeit zusätzlich zur Klassenvorhersage schätzen. Außerdem wird das Szenario, in dem multivariate Daten zu mehreren Messzeitpunkten erhoben werden, betrachtet. In einer Simulationsstudie werden bereits existierende Erweiterungen der LDA für Daten mit Messwiederholungen, welche robust hinsichtlich Abweichungen von der Normalverteilung sind, und ein Support Vector Machine Algorithmus für longitudinale Daten mit der urspünglichen LDA für Messwiederholungen, welche auf der Normalverteilungsannahme basiert, verglichen. Zuletzt wird eine potenziell geeignetere post-hoc Analyse für signifikante Ergebnisse der multivariaten Varianzanalyse (MANOVA) für Messwiederholungen vorgestellt. Die MANOVA für Messwiederholungen kann genutzt werden, um auf signifikante Gruppen-, Zeit-, bzw. Gruppen-Zeit-Interaktionseffekte zu testen. Für longitudinale nicht normalverteilte psychometrische Daten ist die robuste Version der MANOVA für Messwiederholungen geeignet, so wie sie in Voormolen et al. (2020) verwendet wird. Die Autoren untersuchten signifikante Unterschiede zwischen den Gruppen und hinsichtichlich der Messzeitpunkte mittels univariater ANOVA pro Variable, so wie es üblicherweise gemacht wird, obwohl dieser Ansatz den multivariaten Aspekt der ursprünglichen Analyse ignoriert. Die deskriptive Diskriminanzanalyse (DDA) wird oft als geeignetere post-hoc Methode empfohlen. Ihre Anwendung in Daten aus Messwiederholungen wird basierend auf den psychometrischen Daten aus Voormolen et al. (2020) gezeigt. Simulationen multivariater Daten, für die ein einzelner Messzeitpunkt sowie verschiedene nicht-normalverteilte Wahrscheinlichkeitsverteilungen angenommen werden, zeigen, dass die Gesamtperformanz des Random forest (RF) Algorithmus in bimodalen Daten besser als die der LDA ist. Dies ist ein Performanzmaß, welches durch die Unterscheidung/Diskriminierung und die Kalibrierung gemeinsam beeinflusst wird. Für andere Verteilungen übertrifft der RF die LDA hinsichtlich der Unterscheidung/Diskriminierung, aber die Kalibrierung ist meist schlechter. Selbst wenn die LDA in einigen Szenarien bezüglich ihrer Performanz übertroffen wurde, ist sie meist die zweitbeste Methode, und kann daher immer noch für die Anwendung in nicht-normalverteilten psychometrischen Daten empfohlen werden. Für multivariate Daten mit Messwiederholungen zeigen die Simulationen, dass die traditionelle LDA basierend auf Schätzern der gepoolten Kovarianzmatrix eine gute Performanz bezüglich des Youden Index und der Vorhersagegenauigkeit haben. In Szenarien, in denen Gruppenmittelwerte identisch sind, und sich nur die Kovarianzmatrizen beider Gruppen unterscheiden, sind weder die tradtionelle LDA noch eine der alternativen Ansätze geeignet. Die Anwendung der DDA auf Daten mit Messwiederholungen zeigt, dass signifikante Ergebnisse der ANOVA für Messwiederholungsdaten redundante Informationen enthalten können. Der zweite Teil beinhaltet zwei Simulationsstudien für den Vergleich verschiedener Versionen der Random survival forest (RSF) und des Cox Regressionsmodells für Vorhersagen patientenspezifischer Überlebenswahrscheinlichkeiten bzw. von RTEs in RCT-Daten. RSF ist eine nichtparametrische Methode für Ereigniszeitdaten, welche auf den Vorhersagen einer Anzahl von Bäumen basiert, und komplexe Beziehungen zwischen Kovariablen und der vorhergesagten Variable, wie z.B. nichtlineare Muster oder Interaktionen, einbeziehen kann. Außerdem beruht der RSF nicht, wie das Cox-Modell, auf der Proportional-Hazards-Annahme. Daher ist die erste Simulationsstudie eine neutrale Vergleichsstudie basierend auf öffentlich verfügbaren RCT-Datensätzen. Vorhersagen des Cox-Modells und des RSF basierend auf verschiedenen Aufteilungsregeln werden anhand verschiedener Performanzmaße, entsprechend der TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis) Empfehlungen verglichen. Die zweite Simulationsstudie vergleicht einen neuen RF-Ansatz und das Cox-Modell, welche für die Vorhersage patientenspezifischer RTE genutzt werden können. Die neue nichtparametrische Methode basiert auf dem RF und nutzt die standardisierte Differenz des Mann-Whitney Effekts als Aufteilungsregel, um Patientendaten in homogenere Subgruppen aufzuteilen. Verschiedene Performanzmaße, die zur Schätzung heterogener Behandlungseffekte (HTE) verwendet werden, werden zum Vergleich der Performanz der Algorithmen genutzt. Simulationen zum Vergleich patientenspezifischer Vorhersagen von Überlebenswahrscheinlichkeiten zeigen, dass Schlussfolgerungen basierend auf dem C-Index, einem rangbasierten Diskriminanzmaß, welches in der Literatur überwiegend für den Vergleich des Cox- und RSF-Modells in realen Daten genutzt wird, irreführend sein können. Die Gesamtperformanz ist ein Maß, welches von der Diskriminanz wie auch der Kalibrierung beeinflusst wird. Im Allgemeinen scheint der Vergliech basierend auf der Gesamtperformanz geeigneter zu sein, wenn der RSF und die Cox Regression miteinander verglichen werden, hinsichtlich der zahlreichen Ausreißer des geschätztes C-Index für das Cox-Modell. Eine zweite Erkenntnis ist, dass die standardmäßig verwendete log-rank Aufteilungsregel trotz guter Ergebnisse manchmal von alternativen Aufteilungsregeln hinsichtlich der Diskriminanz und Gesamtperformanz übertroffen wird, insbesondere in Szenarien, in denen die Annahme der proportionalen Hazards nicht erfüllt ist. In den Simulationen zum Vergleich der Vorhersage patientenspezifischer Vorhersagen des RTE, ist die Performanz verglichen mit dem Cox-Modell hinsichtlich der Unterscheidung/Diskriminierung meist besser, aber schlechter hinsichtlich der Kalibrierung, ähnlich zu den Ergebnissen der ersten Simulationsstudie. Jedoch ist die Gesamtperformanz der neuen RF Methode bei der Vorhersage individueller RTEs typischerweise besser.…

Metadaten
Author:	Ricarda Graf ORCiD GND
URN:	urn:nbn:de:bvb:384-opus4-1298377
Frontdoor URL	https://opus.bibliothek.uni-augsburg.de/opus4/129837
Advisor:	Sarah Friedrich-Welz
Type:	Doctoral Thesis
Language:	English
Date of Publication (online):	2026/05/28
Year of first Publication:	2026
Publishing Institution:	Universität Augsburg
Granting Institution:	Universität Augsburg, Mathematisch-Naturwissenschaftlich-Technische Fakultät
Date of final exam:	2025/07/18
Release Date:	2026/05/28
Tag:	linearen Diskriminanzanalyse Cox proportional hazards (Cox-PH); Modern machine-learning methods; linear discriminant analysis (LDA)
GND-Keyword:	Maschinelles Lernen; Diskriminanzanalyse; Cox-Regressionsmodell; Benchmark; Random Forest
Page Number:	xviii, 219
Institutes:	Mathematisch-Naturwissenschaftlich-Technische Fakultät
	Mathematisch-Naturwissenschaftlich-Technische Fakultät / Institut für Mathematik
	Mathematisch-Naturwissenschaftlich-Technische Fakultät / Institut für Mathematik / Lehrstuhl für Mathematical Statistics and Artificial Intelligence in Medicine
Dewey Decimal Classification:	5 Naturwissenschaften und Mathematik / 51 Mathematik / 510 Mathematik
Licence (German):	CC-BY-NC 4.0: Creative Commons: Namensnennung - Nicht kommerziell

Open Access

Comparison of machine learning algorithms for application in psychological and medical research

Download full text files

Export metadata

Statistics

Additional Services