Alternativní metody modelování pravděpodobnosti defaultu

Název práce: Alternativní metody modelování pravděpodobnosti defaultu
Autor(ka) práce: Chalupa, Tomáš
Typ práce: Diplomová práce
Vedoucí práce: Formánek, Tomáš
Oponenti práce: Sokol, Ondřej
Jazyk práce: Česky
Abstrakt:
Cílem této práce je srovnání šesti různých modelů, které slouží k predikci binární proměnné, konkrétně pak pravděpodobnosti defaultu úvěru. Použité modely jsou lineární regrese, logistická regrese, probitová regrese, neuronová síť, Support vector regrese a Random forest. Tyto modely jsou vytvořeny pro dva různé datasety k porovnání výkonnosti modelů v závislosti na velikosti dat. V práci jsou použity tři druhy validace modelů (žádná, k-fold cross-validation a bootstrapping). Modely jsou srovnány pomocí statistiky AUC a také praktickými kvalitami (předpoklady, výpočetní náročnost apod.). Jako nejvhodnější se jeví Random forest, který má vysoké hodnoty AUC, nadruhou stranu nemá interpretaci. Neuronová síť je velmi výpočetně náročná, bez interpretace, ale výsledky jsou výborné. SVM trpí na přeučení. Logistická regrese je nejvhodnější z klasických modelů, je snadno interpretovatelná a má dobré odhady
Klíčová slova: umělé neuronové sítě; strojové učení; logistická regrese; Support vector machines; Random forest; predikce defaultu
Název práce: Alternative Methods of Modelling the Probability of Default
Autor(ka) práce: Chalupa, Tomáš
Typ práce: Diploma thesis
Vedoucí práce: Formánek, Tomáš
Oponenti práce: Sokol, Ondřej
Jazyk práce: Česky
Abstrakt:
The aim of this thesis is a comparison of six different models, which serve to predict the binary variable, namely the probability of default of loan. Models used are linear regression, logistic regression, probit regression, neural network, Support vector regression and Random forest. These models are fitted for two different datasets to compare model performance based on data size. There are three types of model validation (none, k-fold cross-validation and bootstrapping). Models are compared using AUC statistics and also practical qualities (assumptions, computational demands, etc.). Random forest, which has high AUC values, seems to be the most appropriate. Neural network is very computationally demanding, without interpretation, but the results are excellent. SVM suffers from overfitting. Logistic regression is the best from classical models, it is easy to interpret and has good estimates.
Klíčová slova: Machine learning; Logistic regression; Artificial neural networks; Support vector machines; Random forest; Prediction of default

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra ekonometrie

Informace o odevzdání a obhajobě

Datum zadání práce: 25. 10. 2017
Datum podání práce: 10. 5. 2018
Datum obhajoby: 6. 6. 2018
Identifikátor v systému InSIS: https://insis.vse.cz/zp/63662/podrobnosti

Soubory ke stažení

    Poslední aktualizace: