Využití krosvalidace ve vybraných klasifikačních metodách
Název práce: | Využití krosvalidace ve vybraných klasifikačních metodách |
---|---|
Autor(ka) práce: | Velacková, Barbora |
Typ práce: | Diplomová práce |
Vedoucí práce: | Šulc, Zdeněk |
Oponenti práce: | Kaspříková, Nikola |
Jazyk práce: | Česky |
Abstrakt: | Jedním z cílů této diplomové práce je porovnání metod krosvalidace, vybraných metod klasifikace a jejich vzájemných kombinací na osmi reálných datových souborech. Jednotlivé metody jsou porovnávány prostřednictvím průměrných pořadí podle celkové správnosti klasifikace a plochy pod ROC křivkou, porovnávána je i doba trvání. V průměru se jako nejlepší klasifikační metoda osvědčila logistická regrese v kombinaci s desetkrát opakovanou desetinásobnou krosvalidací. Druhým cílem práce je zkoumání chování metod krosvalidace při různém nastavení, konkrétně volba parametru k u k-násobné krosvalidace a rozdělení datového souboru na trénovací a testovací část. V neposlední řadě je v této práci zkoumána optimalizace klasifikačních metod, konkrétně optimální hranice pravděpodobnosti při klasifikaci pomocí logistické regrese a vyvarování tzv. přeučení rozhodovacích stromů. |
Klíčová slova: | logistická regrese; diskriminační analýza; rozhodovací stromy; ROC křivka; leave-one-out; krosvalidace |
Název práce: | Use of cross-validation in selected classification methods |
---|---|
Autor(ka) práce: | Velacková, Barbora |
Typ práce: | Diploma thesis |
Vedoucí práce: | Šulc, Zdeněk |
Oponenti práce: | Kaspříková, Nikola |
Jazyk práce: | Česky |
Abstrakt: | One of the aims of this thesis is to compare the methods of cross-validation, selected methods of classification and their mutual combinations on eight real datasets. Methods are compared by average rankings according to accuracy and area under the ROC curve, the duration of the whole process is compared as well. On average, logistic regression combined with ten times repeated ten-fold cross-validation proved to be the best classification method. The second aim of the thesis is to investigate the behaviour of cross-validation methods at different settings, specifically selection of the k parameter for k-fold cross validation and to split the dataset into the part for training and testing. Last but not least, the optimization of classification methods is investigated, specifically, an optimal boundary for the classification by logistic regression and avoidance overfitting in decision trees. |
Klíčová slova: | leave-one-out; logistic regression; cross-validation; discriminant analysis; decision tree; ROC curve |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 19. 12. 2018 |
---|---|
Datum podání práce: | 28. 4. 2019 |
Datum obhajoby: | 6. 6. 2019 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/68117/podrobnosti |