Aplikace modelů strojového učení v rámci modelování kreditního rizika

Název práce: Application of Machine Learning Models within Credit Risk Modelling
Autor(ka) práce: Nguyen, Petr
Typ práce: Diploma thesis
Vedoucí práce: Teplý, Petr
Oponenti práce: Palán, Luděk
Jazyk práce: English
Abstrakt:
This Master’s thesis deals with the custom machine learning implementation framework that was developed in Python and applied to the application scoring data of US home equity loans (HMEQ). The ML framework involves eight classification models, namely Logistic Regression, Decision Tree, Gaussian Naive Bayes, K-Nearest Neighbors, Random Forest, Gradient Boosting, Support Vector Machine, and Neural Network. It further consists of data exploration, data preprocessing using ADASYN oversampling and Optimal Binning with Weight-of-Evidence, a custom feature selection algorithm that utilizes both Bayesian Optimization and Forward Sequential Feature Selection, and a custom model selection algorithm employed based on Bayesian Optimization and weighted ranking of individual metric ranks. In this thesis, metrics such as F1 score, MCC, AUC, Kolmogorov-Smirnov Distance, Somers’ D, and others, are evaluated. Instead of using the standard classification threshold of 0.5, an optimal threshold is calculated using Youden index. The final model is Gradient Boosting trained on the features selected by Neural Network. Such model is further recalibrated and evaluated using both model performance assessment and black-box model explainability inspection. The final model is deployed as a web application using Flask and HTML, which requires filling in the loan application form and outputs the loan approval result, probability of default, and LIME plot, i.e., local explainability of the black-box model around the single prediction.
Klíčová slova: Machine Learning; Probability of Default; Credit Risk; Loans; Python; Web Application; Bayesian Optimization
Název práce: Aplikace modelů strojového učení v rámci modelování kreditního rizika
Autor(ka) práce: Nguyen, Petr
Typ práce: Diplomová práce
Vedoucí práce: Teplý, Petr
Oponenti práce: Palán, Luděk
Jazyk práce: English
Abstrakt:
Tato diplomová práce se zabývá implementací vlastního rámce strojového učení (ML), který byl vyvinut v Pythonu a aplikován na aplikační scoringová data amerických hypotečních úvěrů (HMEQ). Tento ML rámec zahrnuje 8 klasifikačních modelů, jmenovitě logistickou regresi, rozhodovací strom, Gaussovský naivní Bayes, k-nejbližších sousedů, náhodný les, gradientní boosting, model podpůrných vektorů a neuronovou síť. Dále je zde zahrnutá explorace dat, zpracování dat pomocí ADASYN a optimálního binningu s Weight-of-Evidence, vlastní algoritmus pro výběr prediktorů využívající Bayesovskou optimalizaci a Forwardovou sekvenční selekci prediktorů a vlastní algoritmus pro výběr finálního modelu na základě Bayesovské optimalizace a váženého rankingu podle jednotlivých metrik. V této práci jsou evaluovány metriky jako F1 skóre, MCC, AUC, Kolmogorovova-Smirnovova vzdálenost, Somersovo D a další. Namísto použití standardního klasifikačního prahu 0,5 se optimální prahová hodnota vypočítává pomocí Youdenova indexu. Finálním vybraným modelem je gradientní boosting trénovaný na prediktorech vybraných neuronovou sítí. Tento model je dále rekalibrován a evaluován na základě vyhodnocení výkonnosti modelu a inspekce vysvětlitelnosti black-box modelu. Finální model je nasazen jako webová aplikace využívající Flask a HTML, do které se vyplní formulář žádosti o úvěr a která pak vrátí výsledek o schválení úvěru, pravděpodobnost defaultu a LIME - lokální vysvětlitelnost black-box modelu okolo samotné predikce.
Klíčová slova: Kreditní riziko; Pravděpodobnost defaultu; Webová aplikace; Bayesovská optimalizace; Strojové učení; Machine learning; Úvěry; Python

Informace o studiu

Studijní program / obor: Bankovnictví a pojišťovnictví
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta financí a účetnictví
Katedra: Katedra bankovnictví a pojišťovnictví

Informace o odevzdání a obhajobě

Datum zadání práce: 20. 2. 2022
Datum podání práce: 25. 5. 2023
Datum obhajoby: 15. 6. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/80349/podrobnosti

Soubory ke stažení

    Poslední aktualizace: