Application of Machine Learning Models within Credit Risk Modelling
Thesis title: | Application of Machine Learning Models within Credit Risk Modelling |
---|---|
Author: | Nguyen, Petr |
Thesis type: | Diploma thesis |
Supervisor: | Teplý, Petr |
Opponents: | Palán, Luděk |
Thesis language: | English |
Abstract: | This Master’s thesis deals with the custom machine learning implementation framework that was developed in Python and applied to the application scoring data of US home equity loans (HMEQ). The ML framework involves eight classification models, namely Logistic Regression, Decision Tree, Gaussian Naive Bayes, K-Nearest Neighbors, Random Forest, Gradient Boosting, Support Vector Machine, and Neural Network. It further consists of data exploration, data preprocessing using ADASYN oversampling and Optimal Binning with Weight-of-Evidence, a custom feature selection algorithm that utilizes both Bayesian Optimization and Forward Sequential Feature Selection, and a custom model selection algorithm employed based on Bayesian Optimization and weighted ranking of individual metric ranks. In this thesis, metrics such as F1 score, MCC, AUC, Kolmogorov-Smirnov Distance, Somers’ D, and others, are evaluated. Instead of using the standard classification threshold of 0.5, an optimal threshold is calculated using Youden index. The final model is Gradient Boosting trained on the features selected by Neural Network. Such model is further recalibrated and evaluated using both model performance assessment and black-box model explainability inspection. The final model is deployed as a web application using Flask and HTML, which requires filling in the loan application form and outputs the loan approval result, probability of default, and LIME plot, i.e., local explainability of the black-box model around the single prediction. |
Keywords: | Machine Learning; Probability of Default; Credit Risk; Loans; Python; Web Application; Bayesian Optimization |
Thesis title: | Aplikace modelů strojového učení v rámci modelování kreditního rizika |
---|---|
Author: | Nguyen, Petr |
Thesis type: | Diplomová práce |
Supervisor: | Teplý, Petr |
Opponents: | Palán, Luděk |
Thesis language: | English |
Abstract: | Tato diplomová práce se zabývá implementací vlastního rámce strojového učení (ML), který byl vyvinut v Pythonu a aplikován na aplikační scoringová data amerických hypotečních úvěrů (HMEQ). Tento ML rámec zahrnuje 8 klasifikačních modelů, jmenovitě logistickou regresi, rozhodovací strom, Gaussovský naivní Bayes, k-nejbližších sousedů, náhodný les, gradientní boosting, model podpůrných vektorů a neuronovou síť. Dále je zde zahrnutá explorace dat, zpracování dat pomocí ADASYN a optimálního binningu s Weight-of-Evidence, vlastní algoritmus pro výběr prediktorů využívající Bayesovskou optimalizaci a Forwardovou sekvenční selekci prediktorů a vlastní algoritmus pro výběr finálního modelu na základě Bayesovské optimalizace a váženého rankingu podle jednotlivých metrik. V této práci jsou evaluovány metriky jako F1 skóre, MCC, AUC, Kolmogorovova-Smirnovova vzdálenost, Somersovo D a další. Namísto použití standardního klasifikačního prahu 0,5 se optimální prahová hodnota vypočítává pomocí Youdenova indexu. Finálním vybraným modelem je gradientní boosting trénovaný na prediktorech vybraných neuronovou sítí. Tento model je dále rekalibrován a evaluován na základě vyhodnocení výkonnosti modelu a inspekce vysvětlitelnosti black-box modelu. Finální model je nasazen jako webová aplikace využívající Flask a HTML, do které se vyplní formulář žádosti o úvěr a která pak vrátí výsledek o schválení úvěru, pravděpodobnost defaultu a LIME - lokální vysvětlitelnost black-box modelu okolo samotné predikce. |
Keywords: | Kreditní riziko; Pravděpodobnost defaultu; Webová aplikace; Bayesovská optimalizace; Strojové učení; Machine learning; Úvěry; Python |
Information about study
Study programme: | Bankovnictví a pojišťovnictví |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Finance and Accounting |
Department: | Department of Banking and Insurance |
Information on submission and defense
Date of assignment: | 20. 2. 2022 |
---|---|
Date of submission: | 25. 5. 2023 |
Date of defense: | 15. 6. 2023 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/80349/podrobnosti |