Utilization of machine learning for Parkinson's disease prediction
Thesis title: | Využití strojového učení pro predikci Parkinsonovy nemoci |
---|---|
Author: | Pinterová, Lucie |
Thesis type: | Bakalářská práce |
Supervisor: | Kliegr, Tomáš |
Opponents: | Berka, Petr |
Thesis language: | Česky |
Abstract: | Bakalářská práce se zabývá využitím strojového učení pro predikci Parkinsonovy nemoci, konkrétně využitím biomarkerů řeči. V rámci teoretické části práce je stručně představena Parkinsonova nemoc a její vliv na řeč v raných stádiích onemocnění. Následně jsou představeny klasifikační modely rozhodovací strom a random forest, spolu s evaluačními metrikami a metodologií práce. V rámci praktické části je nejprve vybrán vhodný dataset, který je následně prozkoumán a přizpůsoben. Poté je nutné vybrat vhodný algoritmus pro predikci, kterým je v tomto případě zvolen random forest, a aplikovat jej na připravený dataset. Nevyváženost datasetu je vyřešena s pomocí 10-násobné křížové validace. Dále je provedena optimalizace hyperparametrů. Nakonec je vytvořen a vyhodnocen výsledný model. Praktická část je doplněna korelační analýzou, která popisuje vztahy mezi atributy upraveného datasetu a analýzou důležitosti jednotlivých prediktorů ve výsledném modelu. Práce demonstruje možnost využití algoritmu random forest pro predikci Parkinsonovy nemoci na reálných datech a poskytuje skript v jazyce R pro replikaci postupu a výsledků. |
Keywords: | predikce onemocnění; strojové učení; random forest; nevyvážený dataset; Parkinsonova nemoc |
Thesis title: | Utilization of machine learning for Parkinson's disease prediction |
---|---|
Author: | Pinterová, Lucie |
Thesis type: | Bachelor thesis |
Supervisor: | Kliegr, Tomáš |
Opponents: | Berka, Petr |
Thesis language: | Česky |
Abstract: | The bachelor thesis focuses on the use of machine learning for the prediction of Parkinson´s disease, specifically utilizing speech biomarkers. The theoretical part of the thesis provides a brief introduction to Parkinson´s disease and its impact on speech in the early stages of the disease. Subsequently, the decision tree and random forest classification models, along with evaluation metrics and methodology, are presented. In the practical part, a relevant dataset is first selected, explored and adjusted. Next, a suitable prediction algorithm is chosen, in this case random forest, and applied to the adjusted dataset. The imbalance of the dataset is resolved with 10-fold cross-validation. Furthermore, hyperparameter optimization is performed. Finally, the final model is built and evaluated. The practical part is accompanied by a correlation analysis that describes the relationship between the attributes of the adjusted dataset and an analysis of the importance of individual predictors in the final model. The thesis demonstrates the potential use of the random forest algorithm for predicting Parkinson´s disease on real data and provides an R script to replicate the approach and results. |
Keywords: | disease prediction; machine learning; random forest; imbalanced dataset; Parkinson´s disease |
Information about study
Study programme: | Informační média a služby |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 11. 11. 2022 |
---|---|
Date of submission: | 8. 5. 2023 |
Date of defense: | 19. 6. 2023 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/82748/podrobnosti |