Alternative Methods of Modelling the Probability of Default
Thesis title: | Alternativní metody modelování pravděpodobnosti defaultu |
---|---|
Author: | Chalupa, Tomáš |
Thesis type: | Diplomová práce |
Supervisor: | Formánek, Tomáš |
Opponents: | Sokol, Ondřej |
Thesis language: | Česky |
Abstract: | Cílem této práce je srovnání šesti různých modelů, které slouží k predikci binární proměnné, konkrétně pak pravděpodobnosti defaultu úvěru. Použité modely jsou lineární regrese, logistická regrese, probitová regrese, neuronová síť, Support vector regrese a Random forest. Tyto modely jsou vytvořeny pro dva různé datasety k porovnání výkonnosti modelů v závislosti na velikosti dat. V práci jsou použity tři druhy validace modelů (žádná, k-fold cross-validation a bootstrapping). Modely jsou srovnány pomocí statistiky AUC a také praktickými kvalitami (předpoklady, výpočetní náročnost apod.). Jako nejvhodnější se jeví Random forest, který má vysoké hodnoty AUC, nadruhou stranu nemá interpretaci. Neuronová síť je velmi výpočetně náročná, bez interpretace, ale výsledky jsou výborné. SVM trpí na přeučení. Logistická regrese je nejvhodnější z klasických modelů, je snadno interpretovatelná a má dobré odhady |
Keywords: | umělé neuronové sítě; strojové učení; logistická regrese; Support vector machines; Random forest; predikce defaultu |
Thesis title: | Alternative Methods of Modelling the Probability of Default |
---|---|
Author: | Chalupa, Tomáš |
Thesis type: | Diploma thesis |
Supervisor: | Formánek, Tomáš |
Opponents: | Sokol, Ondřej |
Thesis language: | Česky |
Abstract: | The aim of this thesis is a comparison of six different models, which serve to predict the binary variable, namely the probability of default of loan. Models used are linear regression, logistic regression, probit regression, neural network, Support vector regression and Random forest. These models are fitted for two different datasets to compare model performance based on data size. There are three types of model validation (none, k-fold cross-validation and bootstrapping). Models are compared using AUC statistics and also practical qualities (assumptions, computational demands, etc.). Random forest, which has high AUC values, seems to be the most appropriate. Neural network is very computationally demanding, without interpretation, but the results are excellent. SVM suffers from overfitting. Logistic regression is the best from classical models, it is easy to interpret and has good estimates. |
Keywords: | Machine learning; Logistic regression; Artificial neural networks; Support vector machines; Random forest; Prediction of default |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Econometrics |
Information on submission and defense
Date of assignment: | 25. 10. 2017 |
---|---|
Date of submission: | 10. 5. 2018 |
Date of defense: | 6. 6. 2018 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/63662/podrobnosti |