Analysis of extensive medical data

Thesis title: Analýza rozsiahlych medicínskych dát
Author: Karičková, Bianca Isabelle
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Berka, Petr
Thesis language: Slovensky
Abstract:
Cieľom tejto bakalárskej práce je vytvoriť model predikcie mortality kardiochirurgických pacientov z dát získaných z Národného kardiochirurgického registra, z modulu kardiochirurgických operácií. Čiastkovým cieľom je analyzovať dáta s využitím základnej exploračnej analýzy a porovnanie vytvorených modelov predikcie. Práca je rozdelená na teoretickú a praktickú časť. V teoretickej časti bolo predstavené multidisciplinárne odvetvie dolovania znalostí z databáz a podrobne popísaná metodika pre dátovú analýzu, CRISP-DM a jej jednotlivé fázy. Ďalej boli popísané vybrané metódy data miningu a jedna kapitola bola tiež venovaná Ústavu zdravotnických informací a statisiky České Republiky. Spracovaná bola taktiež problematika analýzy dát v zdravotníctve, spoločne s konkrétnymi príkladmi analýz zameraných na kardiovaskulárne ochorenia. Praktická časť postupuje podľa fáz metodiky CRISP-DM v prostredí Jupyter Notebook. Začína zoznámením sa s doménovou oblasťou kardiovaskulárnych ochorení a kardiochirurgických operácií. Nasleduje porozumenie dátam, predspracovanie dát do vhodnej formy a základná exploračná analýza s využitím vizualizačných techník. Vo fáze modelovania boli vytvorené 3 modely predikcie mortality kardiochirurgických pacientov. Modely multinomickej logistickej regresie boli medzi sebou porovnané. Random Forest nebol zahrnutý do komparácie, keďže bol použitý ako medzikrok pri modelovaní druhého modelu multinomickej logistickej regresie. Model multinomickej logistickej regresie s atribútmi vybranými doménovým expertom, sa ukázal ako najvhodnejší s vyváženou správnosťou 84% a F1-skóre 90%. V časti vyhodnotenia výsledkov, boli výsledky modelov konzultované s doménovým expertom.
Keywords: dolovanie znalostí z databáz; data mining; CRISP-DM; predikcia; kardiochirurgické dáta
Thesis title: Analysis of extensive medical data
Author: Karičková, Bianca Isabelle
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Berka, Petr
Thesis language: Slovensky
Abstract:
The aim of this bachelor thesis is to develop a mortality prediction model for cardiac surgery patients from data obtained from the National Cardiac Surgery Registry, Cardiac Surgery Module. The sub-objectives are to analyse the data using basic exploratory analysis and to compare the prediction models developed. The thesis is divided into theoretical and practical parts. The theoretical part introduced the multidisciplinary field of Knowledge Discovery in Databases and described in detail the methodology for data analysis, CRISP-DM and its different phases. Furthermore, selected data mining methods were described and one chapter was also devoted to the Institute of Health Information and Statistics of the Czech Republic. Challenges of data analysis in healthcare were also discussed, along with specific examples of analyses focused on cardiovascular diseases. The practical part follows the phases of the CRISP-DM methodology in the Jupyter Notebook environment. It starts with an introduction to the domain area of cardiovascular diseases and cardiac surgeries. This is followed by understanding the data, preprocessing the data into an appropriate form, and basic exploratory analysis using visualization techniques. In the modelling phase, 3 models were developed to predict mortality in cardiac surgery patients and compared with each other. In the modelling phase, 3 models were developed to predict mortality in cardiac surgery patients. Multinomial logistic regression models were compared with each other. Random Forest was not included in the comparison as it was used as an intermediate step in the modelling of the second multinomial logistic regression model. The multinomial logistic regression model with attributes selected by the domain expert, was found to be the best fit with a balanced accuracy of 84% and an F1-score of 90%. In the results evaluation section, the results of the models were consulted with the domain expert.
Keywords: data mining; CRISP-DM; knowledge discovery in databases; prediction; cardiac surgery data
Thesis title: Analýza rozsiahlych medicínskych dát
Author: Karičková, Bianca Isabelle
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Berka, Petr
Thesis language: Slovensky
Abstract:
Cílem této bakalářské práce je vytvořit model predikce úmrtnosti kardiochirurgických pacientů na základě dat získaných z Národního kardiochirurgického registru, kardiochirurgického modulu. Dílčími cíli jsou analýza dat pomocí základní explorativní analýzy a porovnání vytvořených predikčních modelů. Práce je rozdělena na teoretickou a praktickou část. Teoretická část představila multidisciplinární oblast dobývání znalostí z databází a podrobně popsala metodiku analýzy dat, CRISP-DM a její jednotlivé fáze. Dále byly popsány vybrané metody data miningu a jedna kapitola byla věnována také Ústavu zdravotnických informací a statistiky ČR. Zpracována byla také problematika analýzy dat ve zdravotnictví a konkrétní příklady analýz zaměřených na kardiovaskulární onemocnění. Praktická část sleduje jednotlivé fáze metodiky CRISP-DM v prostředí Jupyter Notebook. Začíná úvodem do doménové oblasti kardiovaskulárních onemocnění a kardiochirurgie. Následuje porozumění datům, předzpracování dat do vhodné podoby a základní explorační analýza s využitím vizualizačních technik. Ve fázi modelování byly vyvinuty 3 modely pro předpověď úmrtnosti pacientů po kardiochirurgických operacích. Modely multinomiální logistické regrese byly vzájemně porovnávány. Random Forest nebyl do srovnání zahrnut, protože byl použit jako mezikrok při modelování druhého modelu multinomické logistické regrese. Bylo zjištěno, že multinomiální logistický regresní model s atributy vybranými expertem na danou oblast se nejlépe hodí s vyváženou dobrou shodou 84 % a skóre F1 90 %. V části hodnocení výsledků byly výsledky modelů konzultovány s doménovým expertem.
Keywords: dobývání znalostí z databází; data mining; CRISP-DM; predikce; kardiochirurgické data

Information about study

Study programme: Informační média a služby
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 5. 12. 2022
Date of submission: 7. 5. 2023
Date of defense: 15. 6. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/83017/podrobnosti

Files for download

    Last update: