Využití strojového učení pro predikci Parkinsonovy nemoci
Název práce: | Využití strojového učení pro predikci Parkinsonovy nemoci |
---|---|
Autor(ka) práce: | Pinterová, Lucie |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Berka, Petr |
Jazyk práce: | Česky |
Abstrakt: | Bakalářská práce se zabývá využitím strojového učení pro predikci Parkinsonovy nemoci, konkrétně využitím biomarkerů řeči. V rámci teoretické části práce je stručně představena Parkinsonova nemoc a její vliv na řeč v raných stádiích onemocnění. Následně jsou představeny klasifikační modely rozhodovací strom a random forest, spolu s evaluačními metrikami a metodologií práce. V rámci praktické části je nejprve vybrán vhodný dataset, který je následně prozkoumán a přizpůsoben. Poté je nutné vybrat vhodný algoritmus pro predikci, kterým je v tomto případě zvolen random forest, a aplikovat jej na připravený dataset. Nevyváženost datasetu je vyřešena s pomocí 10-násobné křížové validace. Dále je provedena optimalizace hyperparametrů. Nakonec je vytvořen a vyhodnocen výsledný model. Praktická část je doplněna korelační analýzou, která popisuje vztahy mezi atributy upraveného datasetu a analýzou důležitosti jednotlivých prediktorů ve výsledném modelu. Práce demonstruje možnost využití algoritmu random forest pro predikci Parkinsonovy nemoci na reálných datech a poskytuje skript v jazyce R pro replikaci postupu a výsledků. |
Klíčová slova: | predikce onemocnění; strojové učení; random forest; nevyvážený dataset; Parkinsonova nemoc |
Název práce: | Utilization of machine learning for Parkinson's disease prediction |
---|---|
Autor(ka) práce: | Pinterová, Lucie |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Berka, Petr |
Jazyk práce: | Česky |
Abstrakt: | The bachelor thesis focuses on the use of machine learning for the prediction of Parkinson´s disease, specifically utilizing speech biomarkers. The theoretical part of the thesis provides a brief introduction to Parkinson´s disease and its impact on speech in the early stages of the disease. Subsequently, the decision tree and random forest classification models, along with evaluation metrics and methodology, are presented. In the practical part, a relevant dataset is first selected, explored and adjusted. Next, a suitable prediction algorithm is chosen, in this case random forest, and applied to the adjusted dataset. The imbalance of the dataset is resolved with 10-fold cross-validation. Furthermore, hyperparameter optimization is performed. Finally, the final model is built and evaluated. The practical part is accompanied by a correlation analysis that describes the relationship between the attributes of the adjusted dataset and an analysis of the importance of individual predictors in the final model. The thesis demonstrates the potential use of the random forest algorithm for predicting Parkinson´s disease on real data and provides an R script to replicate the approach and results. |
Klíčová slova: | disease prediction; machine learning; random forest; imbalanced dataset; Parkinson´s disease |
Informace o studiu
Studijní program / obor: | Informační média a služby |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 11. 11. 2022 |
---|---|
Datum podání práce: | 8. 5. 2023 |
Datum obhajoby: | 19. 6. 2023 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/82748/podrobnosti |