Analýza rozsiahlych medicínskych dát

Název práce: Analýza rozsiahlych medicínskych dát
Autor(ka) práce: Karičková, Bianca Isabelle
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Berka, Petr
Jazyk práce: Slovensky
Abstrakt:
Cieľom tejto bakalárskej práce je vytvoriť model predikcie mortality kardiochirurgických pacientov z dát získaných z Národného kardiochirurgického registra, z modulu kardiochirurgických operácií. Čiastkovým cieľom je analyzovať dáta s využitím základnej exploračnej analýzy a porovnanie vytvorených modelov predikcie. Práca je rozdelená na teoretickú a praktickú časť. V teoretickej časti bolo predstavené multidisciplinárne odvetvie dolovania znalostí z databáz a podrobne popísaná metodika pre dátovú analýzu, CRISP-DM a jej jednotlivé fázy. Ďalej boli popísané vybrané metódy data miningu a jedna kapitola bola tiež venovaná Ústavu zdravotnických informací a statisiky České Republiky. Spracovaná bola taktiež problematika analýzy dát v zdravotníctve, spoločne s konkrétnymi príkladmi analýz zameraných na kardiovaskulárne ochorenia. Praktická časť postupuje podľa fáz metodiky CRISP-DM v prostredí Jupyter Notebook. Začína zoznámením sa s doménovou oblasťou kardiovaskulárnych ochorení a kardiochirurgických operácií. Nasleduje porozumenie dátam, predspracovanie dát do vhodnej formy a základná exploračná analýza s využitím vizualizačných techník. Vo fáze modelovania boli vytvorené 3 modely predikcie mortality kardiochirurgických pacientov. Modely multinomickej logistickej regresie boli medzi sebou porovnané. Random Forest nebol zahrnutý do komparácie, keďže bol použitý ako medzikrok pri modelovaní druhého modelu multinomickej logistickej regresie. Model multinomickej logistickej regresie s atribútmi vybranými doménovým expertom, sa ukázal ako najvhodnejší s vyváženou správnosťou 84% a F1-skóre 90%. V časti vyhodnotenia výsledkov, boli výsledky modelov konzultované s doménovým expertom.
Klíčová slova: dolovanie znalostí z databáz; data mining; CRISP-DM; predikcia; kardiochirurgické dáta
Název práce: Analysis of extensive medical data
Autor(ka) práce: Karičková, Bianca Isabelle
Typ práce: Bachelor thesis
Vedoucí práce: Chudán, David
Oponenti práce: Berka, Petr
Jazyk práce: Slovensky
Abstrakt:
The aim of this bachelor thesis is to develop a mortality prediction model for cardiac surgery patients from data obtained from the National Cardiac Surgery Registry, Cardiac Surgery Module. The sub-objectives are to analyse the data using basic exploratory analysis and to compare the prediction models developed. The thesis is divided into theoretical and practical parts. The theoretical part introduced the multidisciplinary field of Knowledge Discovery in Databases and described in detail the methodology for data analysis, CRISP-DM and its different phases. Furthermore, selected data mining methods were described and one chapter was also devoted to the Institute of Health Information and Statistics of the Czech Republic. Challenges of data analysis in healthcare were also discussed, along with specific examples of analyses focused on cardiovascular diseases. The practical part follows the phases of the CRISP-DM methodology in the Jupyter Notebook environment. It starts with an introduction to the domain area of cardiovascular diseases and cardiac surgeries. This is followed by understanding the data, preprocessing the data into an appropriate form, and basic exploratory analysis using visualization techniques. In the modelling phase, 3 models were developed to predict mortality in cardiac surgery patients and compared with each other. In the modelling phase, 3 models were developed to predict mortality in cardiac surgery patients. Multinomial logistic regression models were compared with each other. Random Forest was not included in the comparison as it was used as an intermediate step in the modelling of the second multinomial logistic regression model. The multinomial logistic regression model with attributes selected by the domain expert, was found to be the best fit with a balanced accuracy of 84% and an F1-score of 90%. In the results evaluation section, the results of the models were consulted with the domain expert.
Klíčová slova: data mining; CRISP-DM; knowledge discovery in databases; prediction; cardiac surgery data
Název práce: Analýza rozsiahlych medicínskych dát
Autor(ka) práce: Karičková, Bianca Isabelle
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Berka, Petr
Jazyk práce: Slovensky
Abstrakt:
Cílem této bakalářské práce je vytvořit model predikce úmrtnosti kardiochirurgických pacientů na základě dat získaných z Národního kardiochirurgického registru, kardiochirurgického modulu. Dílčími cíli jsou analýza dat pomocí základní explorativní analýzy a porovnání vytvořených predikčních modelů. Práce je rozdělena na teoretickou a praktickou část. Teoretická část představila multidisciplinární oblast dobývání znalostí z databází a podrobně popsala metodiku analýzy dat, CRISP-DM a její jednotlivé fáze. Dále byly popsány vybrané metody data miningu a jedna kapitola byla věnována také Ústavu zdravotnických informací a statistiky ČR. Zpracována byla také problematika analýzy dat ve zdravotnictví a konkrétní příklady analýz zaměřených na kardiovaskulární onemocnění. Praktická část sleduje jednotlivé fáze metodiky CRISP-DM v prostředí Jupyter Notebook. Začíná úvodem do doménové oblasti kardiovaskulárních onemocnění a kardiochirurgie. Následuje porozumění datům, předzpracování dat do vhodné podoby a základní explorační analýza s využitím vizualizačních technik. Ve fázi modelování byly vyvinuty 3 modely pro předpověď úmrtnosti pacientů po kardiochirurgických operacích. Modely multinomiální logistické regrese byly vzájemně porovnávány. Random Forest nebyl do srovnání zahrnut, protože byl použit jako mezikrok při modelování druhého modelu multinomické logistické regrese. Bylo zjištěno, že multinomiální logistický regresní model s atributy vybranými expertem na danou oblast se nejlépe hodí s vyváženou dobrou shodou 84 % a skóre F1 90 %. V části hodnocení výsledků byly výsledky modelů konzultovány s doménovým expertem.
Klíčová slova: dobývání znalostí z databází; data mining; CRISP-DM; predikce; kardiochirurgické data

Informace o studiu

Studijní program / obor: Informační média a služby
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 5. 12. 2022
Datum podání práce: 7. 5. 2023
Datum obhajoby: 15. 6. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/83017/podrobnosti

Soubory ke stažení

    Poslední aktualizace: