Srovnání vybraných klasifikačních metod pro vícerozměrná data
Název práce: | Srovnání vybraných klasifikačních metod pro vícerozměrná data |
---|---|
Autor(ka) práce: | Stecenková, Marina |
Typ práce: | Diplomová práce |
Vedoucí práce: | Řezanková, Hana |
Oponenti práce: | Berka, Petr |
Jazyk práce: | Česky |
Abstrakt: | Cílem této diplomové práce je srovnání vybraných klasifikačních metod, a to logistické regrese (binární a multinomické), vícevrstvého perceptronu a klasifikačních stromů CHAID a CRT. V první části je připomenut teoretický základ těchto metod a vysvětlena podstata parametrů modelu. V další části jsou na šesti datových souborech aplikovány výše uvedené klasifikační metody a následně porovnány výstupy těchto metod. Důraz je kladen zejména na hodnocení diskriminační síly modelů. Této problematice je věnována samostatná kapitola. Hodnocení diskriminační síly modelu je založeno na celkové úspěšnosti, F-míře a velikosti plochy pod ROC křivkou. Přínosem práce není pouze srovnání vybraných klasifikačních metod na základě statistik hodnotících diskriminační sílu modelů, ale také celkový přehled o přednostech a nedostatcích jednotlivých metod. |
Klíčová slova: | ROC plocha; F-míra; celková úspěšnost; algoritmus CRT; algoritmus CHAID; vícevrstvý perceptron; logistická regrese; ROC křivka; matice záměn; klasifikační metody |
Název práce: | Comparison of selected classification methods for multivariate data |
---|---|
Autor(ka) práce: | Stecenková, Marina |
Typ práce: | Diploma thesis |
Vedoucí práce: | Řezanková, Hana |
Oponenti práce: | Berka, Petr |
Jazyk práce: | Česky |
Abstrakt: | The aim of this thesis is comparison of selected classification methods which are logistic regression (binary and multinominal), multilayer perceptron and classification trees, CHAID and CRT. The first part is reminiscent of the theoretical basis of these methods and explains the nature of parameters of the models. The next section applies the above classification methods to the six data sets and then compares the outputs of these methods. Particular emphasis is placed on the discriminatory power rating models, which a separate chapter is devoted to. Rating discriminatory power of the model is based on the overall accuracy, F-measure and size of the area under the ROC curve. The benefit of this work is not only a comparison of selected classification methods based on statistical models evaluating discriminatory power, but also an overview of the strengths and weaknesses of each method. |
Klíčová slova: | ROC area; ROC curve; F-measure; overall accuracy; confusion matrix; algorithm CRT; algorithm CHAID; multilayer perceptron; logistic regression; classification methods |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 31. 1. 2012 |
---|---|
Datum podání práce: | 26. 6. 2012 |
Datum obhajoby: | 23. 8. 2012 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/35732/podrobnosti |