Využití strojového učení pro predikci Parkinsonovy nemoci

Název práce: Využití strojového učení pro predikci Parkinsonovy nemoci
Autor(ka) práce: Pinterová, Lucie
Typ práce: Bakalářská práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Berka, Petr
Jazyk práce: Česky
Abstrakt:
Bakalářská práce se zabývá využitím strojového učení pro predikci Parkinsonovy nemoci, konkrétně využitím biomarkerů řeči. V rámci teoretické části práce je stručně představena Parkinsonova nemoc a její vliv na řeč v raných stádiích onemocnění. Následně jsou představeny klasifikační modely rozhodovací strom a random forest, spolu s evaluačními metrikami a metodologií práce. V rámci praktické části je nejprve vybrán vhodný dataset, který je následně prozkoumán a přizpůsoben. Poté je nutné vybrat vhodný algoritmus pro predikci, kterým je v tomto případě zvolen random forest, a aplikovat jej na připravený dataset. Nevyváženost datasetu je vyřešena s pomocí 10-násobné křížové validace. Dále je provedena optimalizace hyperparametrů. Nakonec je vytvořen a vyhodnocen výsledný model. Praktická část je doplněna korelační analýzou, která popisuje vztahy mezi atributy upraveného datasetu a analýzou důležitosti jednotlivých prediktorů ve výsledném modelu. Práce demonstruje možnost využití algoritmu random forest pro predikci Parkinsonovy nemoci na reálných datech a poskytuje skript v jazyce R pro replikaci postupu a výsledků.
Klíčová slova: predikce onemocnění; strojové učení; random forest; nevyvážený dataset; Parkinsonova nemoc
Název práce: Utilization of machine learning for Parkinson's disease prediction
Autor(ka) práce: Pinterová, Lucie
Typ práce: Bachelor thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Berka, Petr
Jazyk práce: Česky
Abstrakt:
The bachelor thesis focuses on the use of machine learning for the prediction of Parkinson´s disease, specifically utilizing speech biomarkers. The theoretical part of the thesis provides a brief introduction to Parkinson´s disease and its impact on speech in the early stages of the disease. Subsequently, the decision tree and random forest classification models, along with evaluation metrics and methodology, are presented. In the practical part, a relevant dataset is first selected, explored and adjusted. Next, a suitable prediction algorithm is chosen, in this case random forest, and applied to the adjusted dataset. The imbalance of the dataset is resolved with 10-fold cross-validation. Furthermore, hyperparameter optimization is performed. Finally, the final model is built and evaluated. The practical part is accompanied by a correlation analysis that describes the relationship between the attributes of the adjusted dataset and an analysis of the importance of individual predictors in the final model. The thesis demonstrates the potential use of the random forest algorithm for predicting Parkinson´s disease on real data and provides an R script to replicate the approach and results.
Klíčová slova: disease prediction; machine learning; random forest; imbalanced dataset; Parkinson´s disease

Informace o studiu

Studijní program / obor: Informační média a služby
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 11. 11. 2022
Datum podání práce: 8. 5. 2023
Datum obhajoby: 19. 6. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/82748/podrobnosti

Soubory ke stažení

    Poslední aktualizace: