Alternative Methods of Modelling the Probability of Default

Thesis title: Alternativní metody modelování pravděpodobnosti defaultu
Author: Chalupa, Tomáš
Thesis type: Diplomová práce
Supervisor: Formánek, Tomáš
Opponents: Sokol, Ondřej
Thesis language: Česky
Abstract:
Cílem této práce je srovnání šesti různých modelů, které slouží k predikci binární proměnné, konkrétně pak pravděpodobnosti defaultu úvěru. Použité modely jsou lineární regrese, logistická regrese, probitová regrese, neuronová síť, Support vector regrese a Random forest. Tyto modely jsou vytvořeny pro dva různé datasety k porovnání výkonnosti modelů v závislosti na velikosti dat. V práci jsou použity tři druhy validace modelů (žádná, k-fold cross-validation a bootstrapping). Modely jsou srovnány pomocí statistiky AUC a také praktickými kvalitami (předpoklady, výpočetní náročnost apod.). Jako nejvhodnější se jeví Random forest, který má vysoké hodnoty AUC, nadruhou stranu nemá interpretaci. Neuronová síť je velmi výpočetně náročná, bez interpretace, ale výsledky jsou výborné. SVM trpí na přeučení. Logistická regrese je nejvhodnější z klasických modelů, je snadno interpretovatelná a má dobré odhady
Keywords: umělé neuronové sítě; strojové učení; logistická regrese; Support vector machines; Random forest; predikce defaultu
Thesis title: Alternative Methods of Modelling the Probability of Default
Author: Chalupa, Tomáš
Thesis type: Diploma thesis
Supervisor: Formánek, Tomáš
Opponents: Sokol, Ondřej
Thesis language: Česky
Abstract:
The aim of this thesis is a comparison of six different models, which serve to predict the binary variable, namely the probability of default of loan. Models used are linear regression, logistic regression, probit regression, neural network, Support vector regression and Random forest. These models are fitted for two different datasets to compare model performance based on data size. There are three types of model validation (none, k-fold cross-validation and bootstrapping). Models are compared using AUC statistics and also practical qualities (assumptions, computational demands, etc.). Random forest, which has high AUC values, seems to be the most appropriate. Neural network is very computationally demanding, without interpretation, but the results are excellent. SVM suffers from overfitting. Logistic regression is the best from classical models, it is easy to interpret and has good estimates.
Keywords: Machine learning; Logistic regression; Artificial neural networks; Support vector machines; Random forest; Prediction of default

Information about study

Study programme: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 25. 10. 2017
Date of submission: 10. 5. 2018
Date of defense: 6. 6. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/63662/podrobnosti

Files for download

    Last update: