Aplikace modelů strojového učení v rámci modelování kreditního rizika
Název práce: | Application of Machine Learning Models within Credit Risk Modelling |
---|---|
Autor(ka) práce: | Nguyen, Petr |
Typ práce: | Diploma thesis |
Vedoucí práce: | Teplý, Petr |
Oponenti práce: | Palán, Luděk |
Jazyk práce: | English |
Abstrakt: | This Master’s thesis deals with the custom machine learning implementation framework that was developed in Python and applied to the application scoring data of US home equity loans (HMEQ). The ML framework involves eight classification models, namely Logistic Regression, Decision Tree, Gaussian Naive Bayes, K-Nearest Neighbors, Random Forest, Gradient Boosting, Support Vector Machine, and Neural Network. It further consists of data exploration, data preprocessing using ADASYN oversampling and Optimal Binning with Weight-of-Evidence, a custom feature selection algorithm that utilizes both Bayesian Optimization and Forward Sequential Feature Selection, and a custom model selection algorithm employed based on Bayesian Optimization and weighted ranking of individual metric ranks. In this thesis, metrics such as F1 score, MCC, AUC, Kolmogorov-Smirnov Distance, Somers’ D, and others, are evaluated. Instead of using the standard classification threshold of 0.5, an optimal threshold is calculated using Youden index. The final model is Gradient Boosting trained on the features selected by Neural Network. Such model is further recalibrated and evaluated using both model performance assessment and black-box model explainability inspection. The final model is deployed as a web application using Flask and HTML, which requires filling in the loan application form and outputs the loan approval result, probability of default, and LIME plot, i.e., local explainability of the black-box model around the single prediction. |
Klíčová slova: | Machine Learning; Probability of Default; Credit Risk; Loans; Python; Web Application; Bayesian Optimization |
Název práce: | Aplikace modelů strojového učení v rámci modelování kreditního rizika |
---|---|
Autor(ka) práce: | Nguyen, Petr |
Typ práce: | Diplomová práce |
Vedoucí práce: | Teplý, Petr |
Oponenti práce: | Palán, Luděk |
Jazyk práce: | English |
Abstrakt: | Tato diplomová práce se zabývá implementací vlastního rámce strojového učení (ML), který byl vyvinut v Pythonu a aplikován na aplikační scoringová data amerických hypotečních úvěrů (HMEQ). Tento ML rámec zahrnuje 8 klasifikačních modelů, jmenovitě logistickou regresi, rozhodovací strom, Gaussovský naivní Bayes, k-nejbližších sousedů, náhodný les, gradientní boosting, model podpůrných vektorů a neuronovou síť. Dále je zde zahrnutá explorace dat, zpracování dat pomocí ADASYN a optimálního binningu s Weight-of-Evidence, vlastní algoritmus pro výběr prediktorů využívající Bayesovskou optimalizaci a Forwardovou sekvenční selekci prediktorů a vlastní algoritmus pro výběr finálního modelu na základě Bayesovské optimalizace a váženého rankingu podle jednotlivých metrik. V této práci jsou evaluovány metriky jako F1 skóre, MCC, AUC, Kolmogorovova-Smirnovova vzdálenost, Somersovo D a další. Namísto použití standardního klasifikačního prahu 0,5 se optimální prahová hodnota vypočítává pomocí Youdenova indexu. Finálním vybraným modelem je gradientní boosting trénovaný na prediktorech vybraných neuronovou sítí. Tento model je dále rekalibrován a evaluován na základě vyhodnocení výkonnosti modelu a inspekce vysvětlitelnosti black-box modelu. Finální model je nasazen jako webová aplikace využívající Flask a HTML, do které se vyplní formulář žádosti o úvěr a která pak vrátí výsledek o schválení úvěru, pravděpodobnost defaultu a LIME - lokální vysvětlitelnost black-box modelu okolo samotné predikce. |
Klíčová slova: | Kreditní riziko; Pravděpodobnost defaultu; Webová aplikace; Bayesovská optimalizace; Strojové učení; Machine learning; Úvěry; Python |
Informace o studiu
Studijní program / obor: | Bankovnictví a pojišťovnictví |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta financí a účetnictví |
Katedra: | Katedra bankovnictví a pojišťovnictví |
Informace o odevzdání a obhajobě
Datum zadání práce: | 20. 2. 2022 |
---|---|
Datum podání práce: | 25. 5. 2023 |
Datum obhajoby: | 15. 6. 2023 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/80349/podrobnosti |