Decision trees and modeling of credit risk
Thesis title: | Rozhodovací stromy pro modelování rizika nesplacení |
---|---|
Author: | Dušek, Ondřej |
Thesis type: | Diplomová práce |
Supervisor: | Čabla, Adam |
Opponents: | Koudelka, Jiří |
Thesis language: | Česky |
Abstract: | Diplomová práce je zaměřena na představení vybraných metod pro analýzu klientských úvěrů. Důraz je kladen především na binární klasifikační a regresní metody založené na rozhodovacích stromech. Metody doprovází úprava, příprava a balancování dat doplněné exploratorní analýzou. Metody jsou použity na reálném datovém souboru obsahujícím informace o jednotlivých úvěrech a žádostí o úvěry vybrané společnosti společně s externími zdroji informací. Metodami klasifikačních a regresních stromů, bagging, random forest a boosting je predikována schopnost klienta splácet své úvěry. Uvedené metody byly zpracovány za pomoci softwaru R a RStudio a jednotlivých balíčků. Práce si klade za cíl seznámit čtenáře s aplikováním jednotlivých metod na reálné úloze. Z použitých metod se nejvíce osvědčila metoda boosting a balancování dat pomocí metody undersampling. |
Keywords: | bagging; binární klasifikace; boosting; predikční modely; random forest; rizikovost úvěrů; rozhodovací stromy |
Thesis title: | Decision trees and modeling of credit risk |
---|---|
Author: | Dušek, Ondřej |
Thesis type: | Diploma thesis |
Supervisor: | Čabla, Adam |
Opponents: | Koudelka, Jiří |
Thesis language: | Česky |
Abstract: | The diploma thesis is focused on the introduction of selected methods for the analysis of client loans. Emphasis is placed primarily on binary classification and regression methods based on decision trees. The methods are accompanied by data editing, preparation and balancing supplemented by exploratory analysis. The methods are used on a real data file containing information of individual loans and loan applications of the selected company together with external sources of information. The methods of classification and regression trees, bagging, random forest and boosting predict the client's ability to repay his loans. These methods were developed using R and RStudio software and individual packages. The work aims to acquaint the reader with the application of individual methods on a real task. Of the methods used, the method of boosting and balancing data using the undersampling method proved to be the most effective. |
Keywords: | boosting; predictive models; random forest; bagging; binary classification; credit risk; decision trees |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 21. 10. 2019 |
---|---|
Date of submission: | 25. 6. 2020 |
Date of defense: | 24. 8. 2020 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/71370/podrobnosti |