Utilization of machine learning for Parkinson's disease prediction

Thesis title: Využití strojového učení pro predikci Parkinsonovy nemoci
Author: Pinterová, Lucie
Thesis type: Bakalářská práce
Supervisor: Kliegr, Tomáš
Opponents: Berka, Petr
Thesis language: Česky
Abstract:
Bakalářská práce se zabývá využitím strojového učení pro predikci Parkinsonovy nemoci, konkrétně využitím biomarkerů řeči. V rámci teoretické části práce je stručně představena Parkinsonova nemoc a její vliv na řeč v raných stádiích onemocnění. Následně jsou představeny klasifikační modely rozhodovací strom a random forest, spolu s evaluačními metrikami a metodologií práce. V rámci praktické části je nejprve vybrán vhodný dataset, který je následně prozkoumán a přizpůsoben. Poté je nutné vybrat vhodný algoritmus pro predikci, kterým je v tomto případě zvolen random forest, a aplikovat jej na připravený dataset. Nevyváženost datasetu je vyřešena s pomocí 10-násobné křížové validace. Dále je provedena optimalizace hyperparametrů. Nakonec je vytvořen a vyhodnocen výsledný model. Praktická část je doplněna korelační analýzou, která popisuje vztahy mezi atributy upraveného datasetu a analýzou důležitosti jednotlivých prediktorů ve výsledném modelu. Práce demonstruje možnost využití algoritmu random forest pro predikci Parkinsonovy nemoci na reálných datech a poskytuje skript v jazyce R pro replikaci postupu a výsledků.
Keywords: predikce onemocnění; strojové učení; random forest; nevyvážený dataset; Parkinsonova nemoc
Thesis title: Utilization of machine learning for Parkinson's disease prediction
Author: Pinterová, Lucie
Thesis type: Bachelor thesis
Supervisor: Kliegr, Tomáš
Opponents: Berka, Petr
Thesis language: Česky
Abstract:
The bachelor thesis focuses on the use of machine learning for the prediction of Parkinson´s disease, specifically utilizing speech biomarkers. The theoretical part of the thesis provides a brief introduction to Parkinson´s disease and its impact on speech in the early stages of the disease. Subsequently, the decision tree and random forest classification models, along with evaluation metrics and methodology, are presented. In the practical part, a relevant dataset is first selected, explored and adjusted. Next, a suitable prediction algorithm is chosen, in this case random forest, and applied to the adjusted dataset. The imbalance of the dataset is resolved with 10-fold cross-validation. Furthermore, hyperparameter optimization is performed. Finally, the final model is built and evaluated. The practical part is accompanied by a correlation analysis that describes the relationship between the attributes of the adjusted dataset and an analysis of the importance of individual predictors in the final model. The thesis demonstrates the potential use of the random forest algorithm for predicting Parkinson´s disease on real data and provides an R script to replicate the approach and results.
Keywords: disease prediction; machine learning; random forest; imbalanced dataset; Parkinson´s disease

Information about study

Study programme: Informační média a služby
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 11. 11. 2022
Date of submission: 8. 5. 2023
Date of defense: 19. 6. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/82748/podrobnosti

Files for download

    Last update: