Binary Classification based on decision trees
Thesis title: | Binární klasifikace pomocí rozhodovacích stromů |
---|---|
Author: | Tuan Hoang, Anh |
Thesis type: | Diplomová práce |
Supervisor: | Čížek, Ondřej |
Opponents: | Formánek, Tomáš |
Thesis language: | Česky |
Abstract: | Jedna z nejčastějších úloh bank ale i ostatních institucí je určení, do které ze dvou kategorií by mělo dané pozorování patřit, ať už se jedná o identifikaci podvodných klientů nebo o identifikaci pacienta s vážným onemocněním atd. Nejhojněji využívanou metodou je bezesporu logistická regrese. Stále častěji se však využívají i rozhodovací stromy a lesy, které jsou generovány na základě nespočet druhů algoritmů. Stěžejním předmětem této práce jsou právě tyto zmiňované modely pro binární klasifikaci. Kromě představení teoretického základu těchto technik je cílem této práce rovněž navrhnutí na základě souboru dat poskytnutý bankovní institucí takového modelu, který bude nejpřesnější v predikci binární klasifikace spokojenosti klientů této banky z hlediska AUC (Area under curve). |
Keywords: | binární klasifikace; rozhodovací stromy; logistická regrese |
Thesis title: | Binary Classification based on decision trees |
---|---|
Author: | Tuan Hoang, Anh |
Thesis type: | Diploma thesis |
Supervisor: | Čížek, Ondřej |
Opponents: | Formánek, Tomáš |
Thesis language: | Česky |
Abstract: | One of the most common task of banks and also other institutions is to determine which of the two categories would the observation belongs. Examples could be identifying fraudulent clients or identifying a patient with a serious illness, etc. The most widely used method is undoubtedly logistic regression. However methods that are also becoming popular are tree-based methods, which are generated by many different algorithms. The main subject of this thesis is these mentioned models for binary classification. In addition to presenting the theoretical basis of these techniques, this thesis also deals with building a model based on a set of data provided by a bank institution that will be most accurate in terms of the AUC (Area under curve) in binary classification customer satisfaction. |
Keywords: | logistic regression; decision trees; binary classification |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Econometrics |
Information on submission and defense
Date of assignment: | 15. 2. 2018 |
---|---|
Date of submission: | 14. 5. 2018 |
Date of defense: | 6. 6. 2018 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/65765/podrobnosti |