Binární klasifikace pomocí rozhodovacích stromů
Název práce: | Binární klasifikace pomocí rozhodovacích stromů |
---|---|
Autor(ka) práce: | Tuan Hoang, Anh |
Typ práce: | Diplomová práce |
Vedoucí práce: | Čížek, Ondřej |
Oponenti práce: | Formánek, Tomáš |
Jazyk práce: | Česky |
Abstrakt: | Jedna z nejčastějších úloh bank ale i ostatních institucí je určení, do které ze dvou kategorií by mělo dané pozorování patřit, ať už se jedná o identifikaci podvodných klientů nebo o identifikaci pacienta s vážným onemocněním atd. Nejhojněji využívanou metodou je bezesporu logistická regrese. Stále častěji se však využívají i rozhodovací stromy a lesy, které jsou generovány na základě nespočet druhů algoritmů. Stěžejním předmětem této práce jsou právě tyto zmiňované modely pro binární klasifikaci. Kromě představení teoretického základu těchto technik je cílem této práce rovněž navrhnutí na základě souboru dat poskytnutý bankovní institucí takového modelu, který bude nejpřesnější v predikci binární klasifikace spokojenosti klientů této banky z hlediska AUC (Area under curve). |
Klíčová slova: | binární klasifikace; rozhodovací stromy; logistická regrese |
Název práce: | Binary Classification based on decision trees |
---|---|
Autor(ka) práce: | Tuan Hoang, Anh |
Typ práce: | Diploma thesis |
Vedoucí práce: | Čížek, Ondřej |
Oponenti práce: | Formánek, Tomáš |
Jazyk práce: | Česky |
Abstrakt: | One of the most common task of banks and also other institutions is to determine which of the two categories would the observation belongs. Examples could be identifying fraudulent clients or identifying a patient with a serious illness, etc. The most widely used method is undoubtedly logistic regression. However methods that are also becoming popular are tree-based methods, which are generated by many different algorithms. The main subject of this thesis is these mentioned models for binary classification. In addition to presenting the theoretical basis of these techniques, this thesis also deals with building a model based on a set of data provided by a bank institution that will be most accurate in terms of the AUC (Area under curve) in binary classification customer satisfaction. |
Klíčová slova: | logistic regression; decision trees; binary classification |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonometrie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 15. 2. 2018 |
---|---|
Datum podání práce: | 14. 5. 2018 |
Datum obhajoby: | 6. 6. 2018 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/65765/podrobnosti |