Binary Classification based on decision trees

Thesis title: Binární klasifikace pomocí rozhodovacích stromů
Author: Tuan Hoang, Anh
Thesis type: Diplomová práce
Supervisor: Čížek, Ondřej
Opponents: Formánek, Tomáš
Thesis language: Česky
Abstract:
Jedna z nejčastějších úloh bank ale i ostatních institucí je určení, do které ze dvou kategorií by mělo dané pozorování patřit, ať už se jedná o identifikaci podvodných klientů nebo o identifikaci pacienta s vážným onemocněním atd. Nejhojněji využívanou metodou je bezesporu logistická regrese. Stále častěji se však využívají i rozhodovací stromy a lesy, které jsou generovány na základě nespočet druhů algoritmů. Stěžejním předmětem této práce jsou právě tyto zmiňované modely pro binární klasifikaci. Kromě představení teoretického základu těchto technik je cílem této práce rovněž navrhnutí na základě souboru dat poskytnutý bankovní institucí takového modelu, který bude nejpřesnější v predikci binární klasifikace spokojenosti klientů této banky z hlediska AUC (Area under curve).
Keywords: binární klasifikace; rozhodovací stromy; logistická regrese
Thesis title: Binary Classification based on decision trees
Author: Tuan Hoang, Anh
Thesis type: Diploma thesis
Supervisor: Čížek, Ondřej
Opponents: Formánek, Tomáš
Thesis language: Česky
Abstract:
One of the most common task of banks and also other institutions is to determine which of the two categories would the observation belongs. Examples could be identifying fraudulent clients or identifying a patient with a serious illness, etc. The most widely used method is undoubtedly logistic regression. However methods that are also becoming popular are tree-based methods, which are generated by many different algorithms. The main subject of this thesis is these mentioned models for binary classification. In addition to presenting the theoretical basis of these techniques, this thesis also deals with building a model based on a set of data provided by a bank institution that will be most accurate in terms of the AUC (Area under curve) in binary classification customer satisfaction.
Keywords: logistic regression; decision trees; binary classification

Information about study

Study programme: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 15. 2. 2018
Date of submission: 14. 5. 2018
Date of defense: 6. 6. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/65765/podrobnosti

Files for download

    Last update: