Methods for modeling the probability of default of the bank's corporate clients

Thesis title: Metody modelování pravděpodobnosti defaultu firemních zákazníků banky
Author: Oleynik, Mariya
Thesis type: Diplomová práce
Supervisor: Formánek, Tomáš
Opponents: Holý, Vladimír
Thesis language: Česky
Abstract:
Cílem diplomové práce je predikce pravděpodobnosti defaultu pomocí čtyř modelů a porovnání predikční schopnosti modelů. Použité modely pro predikci binární závislé proměnné jsou logistická regrese, zobecněný aditivní model, metoda podpůrných vektorů a rozhodovací strom. Aplikace modelů probíhá na reálných datech firemních klientů jedné české banky. K porovnání modelů se používají ROC, AUC a matice záměn. Nejlepším modelem na základě AUC se jeví metoda podpůrných vektorů, i když model vykazuje nejnižší hodnotu celkové správnosti v porovnání s ostatními modely. Zobecněný aditivní model má druhou největší hodnotu AUC a hodnotu celkové správnosti, jež jsou jenom o pár bodů vyšší než hodnoty odpovídající logistické regresi. Nejnižší AUC vychází u rozhodovacího stromu, který má zato nejvyšší hodnotu celkové správnosti, jelikož model správně zařadil největší počet klientů do jednotlivých tříd.
Keywords: Pravděpodobnost defaultu; logistická regrese; zobecněný aditivní model; metoda podpůrných vektorů; rozhodovací strom
Thesis title: Methods for modeling the probability of default of the bank's corporate clients
Author: Oleynik, Mariya
Thesis type: Diploma thesis
Supervisor: Formánek, Tomáš
Opponents: Holý, Vladimír
Thesis language: Česky
Abstract:
The aim of the thesis is the prediction of the probability of default using four models and comparison of predictive accuracy of models. The models used for the prediction of binary dependent variable are logistic regression, generalized additive model, support vector machine and decision tree. The models are applied on real data of corporate clients of a Czech bank. ROC, AUC and confusion matrix are used to compare models. The support vector machine seems to be the best model based on AUC, although the model shows the lowest value of overall accuracy compared to other models. The generalized additive model has the second largest value of AUC and the value of overall accuracy, which are only a few points higher than the corresponding values of logistic regression. Decision tree has the lowest AUC, but also the model has the highest value of overall accuracy, because the model correctly classified the largest number of clients into classes.
Keywords: Probability of default; logistic regression; generalized additive model; support vector machine; decision tree

Information about study

Study programme: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 21. 6. 2019
Date of submission: 24. 6. 2020
Date of defense: 27. 8. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/70084/podrobnosti

Files for download

    Last update: