Alternativní metody modelování pravděpodobnosti defaultu
Název práce: | Alternativní metody modelování pravděpodobnosti defaultu |
---|---|
Autor(ka) práce: | Chalupa, Tomáš |
Typ práce: | Diplomová práce |
Vedoucí práce: | Formánek, Tomáš |
Oponenti práce: | Sokol, Ondřej |
Jazyk práce: | Česky |
Abstrakt: | Cílem této práce je srovnání šesti různých modelů, které slouží k predikci binární proměnné, konkrétně pak pravděpodobnosti defaultu úvěru. Použité modely jsou lineární regrese, logistická regrese, probitová regrese, neuronová síť, Support vector regrese a Random forest. Tyto modely jsou vytvořeny pro dva různé datasety k porovnání výkonnosti modelů v závislosti na velikosti dat. V práci jsou použity tři druhy validace modelů (žádná, k-fold cross-validation a bootstrapping). Modely jsou srovnány pomocí statistiky AUC a také praktickými kvalitami (předpoklady, výpočetní náročnost apod.). Jako nejvhodnější se jeví Random forest, který má vysoké hodnoty AUC, nadruhou stranu nemá interpretaci. Neuronová síť je velmi výpočetně náročná, bez interpretace, ale výsledky jsou výborné. SVM trpí na přeučení. Logistická regrese je nejvhodnější z klasických modelů, je snadno interpretovatelná a má dobré odhady |
Klíčová slova: | umělé neuronové sítě; strojové učení; logistická regrese; Support vector machines; Random forest; predikce defaultu |
Název práce: | Alternative Methods of Modelling the Probability of Default |
---|---|
Autor(ka) práce: | Chalupa, Tomáš |
Typ práce: | Diploma thesis |
Vedoucí práce: | Formánek, Tomáš |
Oponenti práce: | Sokol, Ondřej |
Jazyk práce: | Česky |
Abstrakt: | The aim of this thesis is a comparison of six different models, which serve to predict the binary variable, namely the probability of default of loan. Models used are linear regression, logistic regression, probit regression, neural network, Support vector regression and Random forest. These models are fitted for two different datasets to compare model performance based on data size. There are three types of model validation (none, k-fold cross-validation and bootstrapping). Models are compared using AUC statistics and also practical qualities (assumptions, computational demands, etc.). Random forest, which has high AUC values, seems to be the most appropriate. Neural network is very computationally demanding, without interpretation, but the results are excellent. SVM suffers from overfitting. Logistic regression is the best from classical models, it is easy to interpret and has good estimates. |
Klíčová slova: | Machine learning; Logistic regression; Artificial neural networks; Support vector machines; Random forest; Prediction of default |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonometrie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 25. 10. 2017 |
---|---|
Datum podání práce: | 10. 5. 2018 |
Datum obhajoby: | 6. 6. 2018 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/63662/podrobnosti |