Decision trees and modeling of credit risk

Thesis title: Rozhodovací stromy pro modelování rizika nesplacení
Author: Dušek, Ondřej
Thesis type: Diplomová práce
Supervisor: Čabla, Adam
Opponents: Koudelka, Jiří
Thesis language: Česky
Abstract:
Diplomová práce je zaměřena na představení vybraných metod pro analýzu klientských úvěrů. Důraz je kladen především na binární klasifikační a regresní metody založené na rozhodovacích stromech. Metody doprovází úprava, příprava a balancování dat doplněné exploratorní analýzou. Metody jsou použity na reálném datovém souboru obsahujícím informace o jednotlivých úvěrech a žádostí o úvěry vybrané společnosti společně s externími zdroji informací. Metodami klasifikačních a regresních stromů, bagging, random forest a boosting je predikována schopnost klienta splácet své úvěry. Uvedené metody byly zpracovány za pomoci softwaru R a RStudio a jednotlivých balíčků. Práce si klade za cíl seznámit čtenáře s aplikováním jednotlivých metod na reálné úloze. Z použitých metod se nejvíce osvědčila metoda boosting a balancování dat pomocí metody undersampling.
Keywords: bagging; binární klasifikace; boosting; predikční modely; random forest; rizikovost úvěrů; rozhodovací stromy
Thesis title: Decision trees and modeling of credit risk
Author: Dušek, Ondřej
Thesis type: Diploma thesis
Supervisor: Čabla, Adam
Opponents: Koudelka, Jiří
Thesis language: Česky
Abstract:
The diploma thesis is focused on the introduction of selected methods for the analysis of client loans. Emphasis is placed primarily on binary classification and regression methods based on decision trees. The methods are accompanied by data editing, preparation and balancing supplemented by exploratory analysis. The methods are used on a real data file containing information of individual loans and loan applications of the selected company together with external sources of information. The methods of classification and regression trees, bagging, random forest and boosting predict the client's ability to repay his loans. These methods were developed using R and RStudio software and individual packages. The work aims to acquaint the reader with the application of individual methods on a real task. Of the methods used, the method of boosting and balancing data using the undersampling method proved to be the most effective.
Keywords: boosting; predictive models; random forest; bagging; binary classification; credit risk; decision trees

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 21. 10. 2019
Date of submission: 25. 6. 2020
Date of defense: 24. 8. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/71370/podrobnosti

Files for download

    Last update: