Machine learning and other robust approaches at the service of survival analysis: Alternatives to selected methods in statistical inference and prediction

Název práce: Machine learning and other robust approaches at the service of survival analysis: Alternatives to selected methods in statistical inference and prediction
Autor(ka) práce: Štěpánek, Lubomír
Typ práce: Dissertation thesis
Vedoucí práce: Marek, Luboš
Oponenti práce: Komárková, Lenka; Čabla, Adam
Jazyk práce: English
Abstrakt:
Survival analysis is a popular field of statistics and deals with many tasks both in statistical inference and prediction. While comparison of survival curves as one of the typical inferential tasks is performed using the log-rank test and other approaches, prediction of time to an event of interest for a given individual is commonly made using Cox proportional hazard model or others. However, all the methods in the survival toolbox are limited by relatively strict statistical assumptions, which violations may bias the results of the techniques applied to real data. In this work, we address the issue that the commonly used methods, both in statistical inference and prediction, are limited by their assumptions, and improve them using robust approaches, particularly machine-learning algorithms and delta method. In general, machine-learning approaches do not require to meet so strict assumptions; that is the reason we may get more robust alternatives to the traditional techniques. While the log-rank test or Cox proportional hazards model (or others) might be used within statistical inference in survival analysis for comparing two or more groups represented by their survival curves, we investigate rather tree-based methods for the same task and derive some new statistical properties of this approach. Intuitively, a random forest containing a large proportion of trees with sufficient complexity, adjusted by tree pruning, can classify individuals from various groups into two or more classes depicted by their survival curves, which tends to reject the null hypothesis about no statistical difference between the curves. Thus, a proportion of trees with sufficient complexity classifying into two or more groups, depicted by their survival curves, is very close to the p-value estimate as an analogy of the classical Wald's t-test output of the Cox's regression. We denote the p-value's analogy as phi-value. Furthermore, a level of the pruning of decision trees the random forest model is built with can reduce the tree complexity and, therefore, modify the frequency of null hypothesis false rejection output by the random forest alternative. Also, survival curves could be approximately compared using confidence intervals around the Kaplan-Meier estimator for the survival probability of different groups. So, using the delta method, we adjust the formula for the variance of the Kaplan-Meier estimator for particular cases when information about an event of interest is uncertain, e.g., not appropriately updated in time. Regarding prediction in survival analysis, the Cox model is limited by relatively strict statistical assumptions. So, we propose decomposing the time-to-event variable into "time" and "event" components and using the latter as a target variable for various machine-learning classification algorithms, which are almost assumption-free, unlike the Cox model. While the time component is continuous and is used as one of the covariates, i.e., input variables for various classification algorithms such as logistic regression, naïve Bayes classifiers, decision trees, random forests, and artificial neural networks, the event component is binary, thus, may be modeled using these classification algorithms. We further present simulations demonstrating how the random-forest-based method's rate of false null hypothesis rejection decreases with the increasing tree pruning level. Finally, the adjusted Kaplan-Meier estimation and time-to-event decomposition is applied to predict a decrease or non-decrease of IgG and IgM blood antibodies against COVID-19 (SARS-CoV-2), respectively, below a laboratory cut-off, for a given individual at a given time point. Based on the analytical derivations, simulations, and real-world data applications, the introduced methods seem to enrich the family of all alternatives for survival curves' comparison and time-to-event prediction, and, even more, some of them require a minimum of statistical assumptions needed to be met.
Klíčová slova: machine learning; decision trees; time-to-event prediction; classification algorithms; COVID-19; antibody blood level decrease; robust methods; survival analysis; survival curves comparison; random forest; assumption-free; delta method; adjusted Kaplan-Meier estimator; Cox proportional hazard model; time-to-event variable decomposition
Název práce: Machine learning and other robust approaches at the service of survival analysis: Alternatives to selected methods in statistical inference and prediction
Autor(ka) práce: Štěpánek, Lubomír
Typ práce: Disertační práce
Vedoucí práce: Marek, Luboš
Oponenti práce: Komárková, Lenka; Čabla, Adam
Jazyk práce: English
Abstrakt:
Analýza přežívání je oblíbenou oblastí statistiky a zabývá se mnoha úlohami jak ve statistickém usuzování (inferenci), tak v předpovídání (predikci). Zatímco srovnávání křivek přežívání, jako jedna z typických úloh inference, se provádí např. pomocí log-rank testu a dalších přístupů, predikce času do události zájmu pro daného jedince se běžně provádí pomocí Coxova modelu proporcionálních rizik či jiných metod. Nicméně všechny běžné metody v analýze přežívání jsou omezeny relativně přísnými statistickými předpoklady, jejichž porušení může zkreslit výsledky, jsou-li metody aplikovány na reálná data. V této práci se věnujeme problému, kdy běžně používané metody, jak v statistické inferenci, tak v predikci, jsou omezeny svými předpoklady, a snažíme se je zdokonalit pomocí robustních přístupů, zejména pomocí algoritmů strojového učení a pomocí delta metody. Obecně totiž přístupy strojového učení nevyžadují splnění tak přísných předpokladů; můžeme tedy očekávat robustnější alternativy k tradičním technikám. Zatímco k porovnání dvou či více skupin reprezentovaných svými křivkami přežívání lze v rámci statistického usuzování v analýze přežívání použít log-rank text, Coxův model proporcionálních rizik či jinou metodu, my se pro řešení stejné úlohy zaměříme více na stromové struktury a odvozujeme některé nové vlastnosti takového přístupu. Intuitivně řečeno, náhodný les obsahující velký podíl stromů s dostatečnou složitostí, upravenou prořezáváním stromů, může klasifikovat subjekty z různých skupin do dvou nebo více tříd znázorněných jejich křivkami přežití, což má za následek zamítnutí nulové hypotézy o nevýznamném statistickém rozdílu mezi křivkami. Podíl stromů s dostatečnou složitostí klasifikujících do dvou nebo více skupin, znázorněných jejich křivkami přežití, je tedy velmi blízko k odhadu p-hodnoty jako analogie k tradičnímu výstupu Waldova t-testu a Coxovy regrese. Zde značíme analogii p-hodnoty jako phi-hodnotu. Dále, úroveň prořezávání rozhodovacích stromů v model náhodného lesu, může změnit složitost stromů a tím modifikovat frekvenci odmítnutí nulové hypotézy náhodným lesem. Křivky přežití lze přibližně porovnat pomocí intervalů spolehlivosti kolem odhadu pravděpodobnosti přežívání např. pomocí Kaplan-Meierova odhadu pro různé skupiny. Pomocí delta metody upravujeme vzorec pro rozptyl odhadu Kaplan-Meier pro ty případy, kdy jsou informace o události zájmu nejisté, například nejsou dostatečně aktualizovány v čase. Pokud jde o predikci v analýze přežívání, Coxova regrese je omezena relativně přísnými statistickými předpoklady. V práci navrhujeme rozložení proměnné času do události na "časovou" a "událostní" složku, kdy událostní složka je použita jako závislá proměnná pro různé klasifikační algoritmy strojového učení, které jsou téměř bez předpokladů (na rozdíl od Coxova modelu). Zatímco časová složka je spojitá a je použita jako jedna z kovariát, tj. vstupních proměnných pro různé klasifikační algoritmy, jako jsou logistická regrese, naivní Bayesův klasifikátor, rozhodovací stromy, náhodné lesy a umělé neuronové sítě, událostní složka je binární a může být odhadována těmito klasifikačními algoritmy. Nakonec představujeme simulace, které ukazují, jak se míra zamítnutí nulové hypotézy v představené metodě založené na náhodných lesích snižuje se zvyšující se úrovní prořezávání stromu. Upravený Kaplan-Meierův odhad a rozklad závisle proměnné časové a událostní složky je použit k předpovědi poklesu hladiny krevních protilátek IgG a IgM proti COVID-19 (SARS-CoV-2) pod laboratorní mez, vždy pro danou osobu v daném časovém bodě. Na základě analytických odvození, simulací a aplikací na reálná data se uvedené metody jeví jako potenciální obohacení rodiny všech alternativ pro srovnávání křivek přežívání a predikci času do události; některé navržené přístupy mají navíc s minimum statistických předpokladů.
Klíčová slova: robustní metody; analýza přežívání; srovnávání křivek přežívání; strojové učení; delta metoda; rozklad časově-událostní proměnné; předpověď času do události; klasifikační algoritmy; COVID-19; pokles hladiny protilátek v krvi; náhodný les; rozhodovací stromy; bezpředpokladové metody; upravený Kaplan-Meierův odhad; Coxův model proporcionálních rizik

Informace o studiu

Studijní program / obor: Statistika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 12. 11. 2020
Datum podání práce: 30. 11. 2023
Datum obhajoby: 22. 2. 2024
Identifikátor v systému InSIS: https://insis.vse.cz/zp/75105/podrobnosti

Soubory ke stažení

    Poslední aktualizace: