Analýza rizikových faktorov a prediktorov úmrtnosti v kardiochirurgii s využitím modelov strojového učenia
| Název práce: | Analýza rizikových faktorov a prediktorov úmrtnosti v kardiochirurgii s využitím modelov strojového učenia |
|---|---|
| Autor(ka) práce: | Karičková, Bianca Isabelle |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Chudán, David |
| Oponenti práce: | Berka, Petr |
| Jazyk práce: | Slovensky |
| Abstrakt: | Táto diplomová práca sa zameriava na vývoj predikčného modelu mortality kardiochirurgických pacientov s využitím metód strojového učenia a dát z Národného registra kardiovaskulárnych operácií a intervencií (NRKOI) Českej republiky. Modelovanie bolo realizované v jazyku Python v prostredí Jupyter Notebook a zahŕňalo predspracovanie dát, výber atribútov a trénovanie predikčných modelov. Predpripravený dátový súbor o veľkosti 132 317 záznamov bol rozdelený náhodným stratifikovaným výberom v pomere 70:20:10 na trénovaciu, testovaciu a validačnú množinu. V rámci analýzy bolo vytvorených a porovnaných sedem klasifikačných algoritmov aplikovaných v dvoch odlišných prístupoch k tvorbe modelov: prvý vychádzal z atribútov identifikovaných pomocou metód feature selection, druhý zo subsetu atribútov definovaných doménovým expertom. V oboch prístupoch boli testované metódy riešenia nevyváženosti tried cieľového atribútu, pričom ako najvhodnejší postup sa ukázala úprava rozhodovacích prahov pomocou Youdenovho indexu. Na základe týchto prístupov boli vybrané dva finálne modely, ktorých výkonnosť bola testovaná na Out‑of‑time validačných dátach z rokov 2023–2024 (N = 16 242). Analýza výsledkov ukázala, že najvýkonnejší bol model Gradient Boostingu s výberom atribútov pomocou metód feature selection, ktorý na OOT dátach dosiahol hodnotu ROC‑AUC = 0,741 a vyváženú presnosť 0,510. Medzi najdôležitejšie prediktory patril vek (dôležitosť 0,1035) a posledná predoperačná hodnota sérového kreatinínu (dôležitosť 0,1023). Dôležitosť atribútov v kontexte výsledku operácie bola ďalej skúmaná pomocou SHAP analýzy. Výsledky boli konzultované s doménovým expertom z oblasti kardiológie. |
| Klíčová slova: | SHAP analýza; strojové učenie; kardiochirurgia; predikcia mortality; rizikové faktory |
| Název práce: | Analýza rizikových faktorov a prediktorov úmrtnosti v kardiochirurgii s využitím modelov strojového učenia |
|---|---|
| Autor(ka) práce: | Karičková, Bianca Isabelle |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Chudán, David |
| Oponenti práce: | Berka, Petr |
| Jazyk práce: | Slovensky |
| Abstrakt: | Tato diplomová práce se zaměřuje na vývoj predikčního modelu úmrtnosti kardiochirurgických pacientů s využitím metod strojového učení a dat z Národního registru kardiovaskulárních operací a intervencí (NRKOI) České republiky. Modelování bylo realizováno v jazyce Python v prostředí Jupyter Notebook a zahrnovalo předzpracování dat, výběr atributů a trénování predikčních modelů. Předem připravený datový soubor o velikosti 132 317 záznamů byl rozdělen náhodným stratifikovaným výběrem v poměru 70:20:10 na trénovací, testovací a validační sadu. V rámci analýzy bylo vytvořeno a porovnáno sedm klasifikačních algoritmů aplikovaných ve dvou odlišných přístupech k tvorbě modelů: první vycházel z atributů identifikovaných pomocí metod výběru atributů (feature selection), druhý z podmnožiny atributů definovaných odborníkem v dané oblasti. V obou přístupech byly testovány metody řešení nevyváženosti tříd cílového atributu, přičemž jako nejvhodnější postup se ukázala úprava rozhodovacích prahů pomocí Youdenova indexu. Na základě těchto přístupů byly vybrány dva finální modely, jejichž výkonnost byla testována na validačních datech Out-of-time z let 2023–2024 (N = 16 242). Analýza výsledků ukázala, že nejvýkonnější byl model Gradient Boostingu s výběrem atributů pomocí metod feature selection, který na OOT datech dosáhl hodnoty ROC-AUC = 0,741 a vyvážené přesnosti 0,510. Mezi nejdůležitější prediktory patřily věk (význam 0,1035) a poslední předoperační hodnota sérového kreatininu (význam 0,1023). Význam atributů v kontextu výsledku operace byl dále zkoumán pomocí SHAP analýzy. Výsledky byly konzultovány s odborníkem z oblasti kardiologie. |
| Klíčová slova: | strojové učení; kardiochirurgie; rizikové faktory; SHAP analýza; predikce mortality |
| Název práce: | Analysis of Risk Factors and Predictors of Mortality in Cardiac Surgery with the Use of Machine Learning Models |
|---|---|
| Autor(ka) práce: | Karičková, Bianca Isabelle |
| Typ práce: | Diploma thesis |
| Vedoucí práce: | Chudán, David |
| Oponenti práce: | Berka, Petr |
| Jazyk práce: | Slovensky |
| Abstrakt: | This diploma thesis focuses on the development of a predictive model for mortality in cardiac surgery patients using machine learning methods and data from the National Register of Cardiovascular Surgical and Interventional Procedures (NRKOI) of the Czech Republic. Model development was carried out in the Python programming language using the Jupyter Notebook environment and included data preprocessing, feature selection, and training of predictive models. The prepared dataset consisting of 132,317 records was split using a random stratified sampling approach in a 70:20:10 ratio into training, testing, and validation sets. Seven classification algorithms were developed and compared using two distinct modeling approaches: the first was based on features identified through feature selection methods, while the second relied on a subset of features defined by a domain expert. In both approaches, methods for addressing class imbalance in the target variable were evaluated, with decision threshold adjustment using Youden’s Index identified as the most suitable strategy. Based on these approaches, two final models were selected and their performance was evaluated on out of time validation data from the years 2023–2024 (N = 16 242). The results showed that the best performing model was Gradient Boosting with feature selection–based attribute selection, achieving a ROC AUC of 0,741 and a balanced accuracy of 0,510 on the OOT data. Among the most important predictors were age (importance 0,1035) and the last preoperative serum creatinine value (importance 0,1023). Feature importance in relation to surgical outcomes was further examined using SHAP analysis. The results were discussed with a domain expert in cardiology. |
| Klíčová slova: | risk factors; SHAP analysis; machine learning; cardiac surgery; mortality prediction |
Informace o studiu
| Studijní program / obor: | Data a analytika pro business |
|---|---|
| Typ studijního programu: | Magisterský studijní program |
| Přidělovaná hodnost: | Ing. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 27. 1. 2025 |
|---|---|
| Datum podání práce: | 26. 4. 2026 |
| Datum obhajoby: | 5. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/91142/podrobnosti |