Modern approach to Survival Analysis
Název práce: | Modern approach to Survival Analysis |
---|---|
Autor(ka) práce: | Boček, Lukáš |
Typ práce: | Diploma thesis |
Vedoucí práce: | Malá, Ivana |
Oponenti práce: | Štěpánek, Lubomír |
Jazyk práce: | English |
Abstrakt: | Survival analysis is a branch of statistics that focuses on analyzing and predicting the time until an event of interest occurs. It is commonly applied in fields where events are censored and may not be directly observed within the monitoring period. The Cox proportional hazards model is the most widely used technique in this domain due to its semi-parametric nature, allowing it to estimate the effects of covariates on survival outcomes without assuming a specific baseline hazard function. However, this model is constrained by relatively strict assumptions. The goal of this work is to assess whether the field of survival analysis can benefit from the adoption of algorithms based on machine learning, which are generally not constrained by strong assumptions. These algorithms include tree-based methods such as random survival forests, conditional inference forests, and oblique random survival forests, as well as enhancements to the Cox model that incorporate machine learning techniques like boosting and penalization. For this purpose, real data were used as well as simulated data in order to make comparison between the predictive power of traditional and machine learning algorithms. Comparison of the algorithms was done on data, which the models were not trained on. For real-world data, the study utilized a dataset about patients admitted to the intensive care unit at Beth Israel Deaconess Medical Center in Boston. The analysis was divided into two parts: one focusing on time-independent covariates and the other on time-dependent covariates. In the time-independent analysis, emphasis was placed on understanding how specific diagnoses, along with patient demographics, impact survival. Additionally, significant attention was given to techniques that facilitate explanations of specific predictions made by the model and the model’s overall behavior. The analysis with time-dependent covariates aimed to explore additional opportunities and abilities of the described models to work with these data. The simulation was conducted to generate nine different datasets, varying in the number of observations and levels of censoring. However, all simulated datasets had common set of 32 covariates, out of which only 8 had a real impact on the outcome. This approach was designed to explore abilities of the model to perform under the prevalence of noisy variables. This time, apart from predictive power of individual models, the ability to recognize important covariates under different scenarios was investigated as well. The results from the simulations aligned with those from the real data analysis, with the best-performing algorithms being CoxBoost and the Cox model with elastic net regularization. The Cox model with elastic net regularization was particularly effective in scenarios with a limited number of observations, outperforming the other models. These findings demonstrate that enhancing the traditional Cox model with boosting and regularization techniques can lead to improvements. However, the tree-based methods did not show superior predictive power compared to the traditional Cox model. |
Klíčová slova: | survival analysis; machine learning; predictive analytics; explainable AI; random forests; boosting; regularization |
Název práce: | Modern approach to Survival Analysis |
---|---|
Autor(ka) práce: | Boček, Lukáš |
Typ práce: | Diplomová práce |
Vedoucí práce: | Malá, Ivana |
Oponenti práce: | Štěpánek, Lubomír |
Jazyk práce: | English |
Abstrakt: | Analýza přežívání je odvětví statistiky, které se zaměřuje na analýzu a predikci času do nastání události, která je předmětem zájmu. Běžně se aplikuje v oblastech, kde jsou události cenzurovány a nejsou pozorovány během sledovacího období. Coxův model je v této oblasti nejvíce používanou metodou díky své semi-parametrické povaze, která umožňuje odhadovat vliv kovariát na výsledky přežití bez předpokladu znalosti konkrétní funkce rizika. Tento model je však omezen poměrně striktními předpoklady. Cílem této práce je posoudit, zda analýza přežívání může těžit z adopce algoritmů založených na strojovém učení, které obecně nejsou vázány silnými předpoklady. Mezi použité metody strojového učení patří metody založené na stromech, jako jsou random survival forests, conditional inference forests a oblique random survival forests, a metody rozšiřující Coxův model, které zahrnují techniky strojového učení jako je boosting a penalizace. Za účelem srovnání byla použita reálná data i simulovaná data, aby bylo možné porovnat prediktivní sílu tradičních metod a metod založených na strojovém učení. Porovnání algoritmů bylo provedeno na datech, která nebyla využita pro trénování modelů. Pro reálná data byla použita data o pacientech přijatých na jednotku intenzivní péče v Beth Israel Deaconess Medical Center v Bostonu. Analýza byla rozdělena do dvou částí: první část se zaměřila na analýzu s proměnnými neměnnými v čase a druhá na analýzu s časově závislými proměnnými. V analýze s proměnnými neměnnými v čase byl kladen důraz na zjištění toho, jak specifické diagnózy spolu s demografickými údaji pacientů ovlivňují přežití. Zvláštní pozornost byla věnována také technikám, které usnadňují vysvětlení konkrétních predikcí a celkového chování modelu. Analýza s časově závislými proměnnými si kladla za cíl prozkoumat příležitosti a schopnosti popsaných modelů pracovat s těmito daty. Simulace byla provedena za účelem generování devíti různých datových sad, které se lišily počtem pozorování a úrovněmi cenzorování. Všechny simulované datové sady měly však společnou sadu 32 kovariát, z nichž pouze 8 mělo skutečný vliv na výsledek. Tento přístup byl navržen k prozkoumání schopností modelu fungovat za situace, kdy většina proměnných představuje pouze náhodný šum. Tentokrát byla zkoumána kromě prediktivní síly jednotlivých modelů i schopnost rozpoznat důležité proměnné v různých scénářích. Výsledky simulací byly v souladu s výsledky analýzy reálných dat, přičemž nejlépe fungujícími algoritmy byly CoxBoost a Coxův model s elastic net penalizací. |
Klíčová slova: | analýza přežívání; strojové učení; prediktivní analytika; explainable AI; náhodné lesy; boosting; penalizace |
Informace o studiu
Studijní program / obor: | Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 21. 11. 2022 |
---|---|
Datum podání práce: | 28. 4. 2024 |
Datum obhajoby: | 3. 6. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/82851/podrobnosti |