Use of cross-validation in selected classification methods

Thesis title: Využití krosvalidace ve vybraných klasifikačních metodách
Author: Velacková, Barbora
Thesis type: Diplomová práce
Supervisor: Šulc, Zdeněk
Opponents: Kaspříková, Nikola
Thesis language: Česky
Abstract:
Jedním z cílů této diplomové práce je porovnání metod krosvalidace, vybraných metod klasifikace a jejich vzájemných kombinací na osmi reálných datových souborech. Jednotlivé metody jsou porovnávány prostřednictvím průměrných pořadí podle celkové správnosti klasifikace a plochy pod ROC křivkou, porovnávána je i doba trvání. V průměru se jako nejlepší klasifikační metoda osvědčila logistická regrese v kombinaci s desetkrát opakovanou desetinásobnou krosvalidací. Druhým cílem práce je zkoumání chování metod krosvalidace při různém nastavení, konkrétně volba parametru k u k-násobné krosvalidace a rozdělení datového souboru na trénovací a testovací část. V neposlední řadě je v této práci zkoumána optimalizace klasifikačních metod, konkrétně optimální hranice pravděpodobnosti při klasifikaci pomocí logistické regrese a vyvarování tzv. přeučení rozhodovacích stromů.
Keywords: logistická regrese; diskriminační analýza; rozhodovací stromy; ROC křivka; leave-one-out; krosvalidace
Thesis title: Use of cross-validation in selected classification methods
Author: Velacková, Barbora
Thesis type: Diploma thesis
Supervisor: Šulc, Zdeněk
Opponents: Kaspříková, Nikola
Thesis language: Česky
Abstract:
One of the aims of this thesis is to compare the methods of cross-validation, selected methods of classification and their mutual combinations on eight real datasets. Methods are compared by average rankings according to accuracy and area under the ROC curve, the duration of the whole process is compared as well. On average, logistic regression combined with ten times repeated ten-fold cross-validation proved to be the best classification method. The second aim of the thesis is to investigate the behaviour of cross-validation methods at different settings, specifically selection of the k parameter for k-fold cross validation and to split the dataset into the part for training and testing. Last but not least, the optimization of classification methods is investigated, specifically, an optimal boundary for the classification by logistic regression and avoidance overfitting in decision trees.
Keywords: leave-one-out; logistic regression; cross-validation; discriminant analysis; decision tree; ROC curve

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 19. 12. 2018
Date of submission: 28. 4. 2019
Date of defense: 6. 6. 2019
Identifier in the InSIS system: https://insis.vse.cz/zp/68117/podrobnosti

Files for download

    Last update: