Use of cross-validation in selected classification methods
Thesis title: | Využití krosvalidace ve vybraných klasifikačních metodách |
---|---|
Author: | Velacková, Barbora |
Thesis type: | Diplomová práce |
Supervisor: | Šulc, Zdeněk |
Opponents: | Kaspříková, Nikola |
Thesis language: | Česky |
Abstract: | Jedním z cílů této diplomové práce je porovnání metod krosvalidace, vybraných metod klasifikace a jejich vzájemných kombinací na osmi reálných datových souborech. Jednotlivé metody jsou porovnávány prostřednictvím průměrných pořadí podle celkové správnosti klasifikace a plochy pod ROC křivkou, porovnávána je i doba trvání. V průměru se jako nejlepší klasifikační metoda osvědčila logistická regrese v kombinaci s desetkrát opakovanou desetinásobnou krosvalidací. Druhým cílem práce je zkoumání chování metod krosvalidace při různém nastavení, konkrétně volba parametru k u k-násobné krosvalidace a rozdělení datového souboru na trénovací a testovací část. V neposlední řadě je v této práci zkoumána optimalizace klasifikačních metod, konkrétně optimální hranice pravděpodobnosti při klasifikaci pomocí logistické regrese a vyvarování tzv. přeučení rozhodovacích stromů. |
Keywords: | logistická regrese; diskriminační analýza; rozhodovací stromy; ROC křivka; leave-one-out; krosvalidace |
Thesis title: | Use of cross-validation in selected classification methods |
---|---|
Author: | Velacková, Barbora |
Thesis type: | Diploma thesis |
Supervisor: | Šulc, Zdeněk |
Opponents: | Kaspříková, Nikola |
Thesis language: | Česky |
Abstract: | One of the aims of this thesis is to compare the methods of cross-validation, selected methods of classification and their mutual combinations on eight real datasets. Methods are compared by average rankings according to accuracy and area under the ROC curve, the duration of the whole process is compared as well. On average, logistic regression combined with ten times repeated ten-fold cross-validation proved to be the best classification method. The second aim of the thesis is to investigate the behaviour of cross-validation methods at different settings, specifically selection of the k parameter for k-fold cross validation and to split the dataset into the part for training and testing. Last but not least, the optimization of classification methods is investigated, specifically, an optimal boundary for the classification by logistic regression and avoidance overfitting in decision trees. |
Keywords: | leave-one-out; logistic regression; cross-validation; discriminant analysis; decision tree; ROC curve |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 19. 12. 2018 |
---|---|
Date of submission: | 28. 4. 2019 |
Date of defense: | 6. 6. 2019 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/68117/podrobnosti |