Application of Machine Learning Models within Credit Risk Modelling

English
Česky

Thesis title:	Application of Machine Learning Models within Credit Risk Modelling
Author:	Nguyen, Petr
Thesis type:	Diploma thesis
Supervisor:	Teplý, Petr
Opponents:	Palán, Luděk
Thesis language:	English
Abstract:	This Master’s thesis deals with the custom machine learning implementation framework that was developed in Python and applied to the application scoring data of US home equity loans (HMEQ). The ML framework involves eight classification models, namely Logistic Regression, Decision Tree, Gaussian Naive Bayes, K-Nearest Neighbors, Random Forest, Gradient Boosting, Support Vector Machine, and Neural Network. It further consists of data exploration, data preprocessing using ADASYN oversampling and Optimal Binning with Weight-of-Evidence, a custom feature selection algorithm that utilizes both Bayesian Optimization and Forward Sequential Feature Selection, and a custom model selection algorithm employed based on Bayesian Optimization and weighted ranking of individual metric ranks. In this thesis, metrics such as F1 score, MCC, AUC, Kolmogorov-Smirnov Distance, Somers’ D, and others, are evaluated. Instead of using the standard classification threshold of 0.5, an optimal threshold is calculated using Youden index. The final model is Gradient Boosting trained on the features selected by Neural Network. Such model is further recalibrated and evaluated using both model performance assessment and black-box model explainability inspection. The final model is deployed as a web application using Flask and HTML, which requires filling in the loan application form and outputs the loan approval result, probability of default, and LIME plot, i.e., local explainability of the black-box model around the single prediction.
Keywords:	Machine Learning; Probability of Default; Credit Risk; Loans; Python; Web Application; Bayesian Optimization

Thesis title:	Aplikace modelů strojového učení v rámci modelování kreditního rizika
Author:	Nguyen, Petr
Thesis type:	Diplomová práce
Supervisor:	Teplý, Petr
Opponents:	Palán, Luděk
Thesis language:	English
Abstract:	Tato diplomová práce se zabývá implementací vlastního rámce strojového učení (ML), který byl vyvinut v Pythonu a aplikován na aplikační scoringová data amerických hypotečních úvěrů (HMEQ). Tento ML rámec zahrnuje 8 klasifikačních modelů, jmenovitě logistickou regresi, rozhodovací strom, Gaussovský naivní Bayes, k-nejbližších sousedů, náhodný les, gradientní boosting, model podpůrných vektorů a neuronovou síť. Dále je zde zahrnutá explorace dat, zpracování dat pomocí ADASYN a optimálního binningu s Weight-of-Evidence, vlastní algoritmus pro výběr prediktorů využívající Bayesovskou optimalizaci a Forwardovou sekvenční selekci prediktorů a vlastní algoritmus pro výběr finálního modelu na základě Bayesovské optimalizace a váženého rankingu podle jednotlivých metrik. V této práci jsou evaluovány metriky jako F1 skóre, MCC, AUC, Kolmogorovova-Smirnovova vzdálenost, Somersovo D a další. Namísto použití standardního klasifikačního prahu 0,5 se optimální prahová hodnota vypočítává pomocí Youdenova indexu. Finálním vybraným modelem je gradientní boosting trénovaný na prediktorech vybraných neuronovou sítí. Tento model je dále rekalibrován a evaluován na základě vyhodnocení výkonnosti modelu a inspekce vysvětlitelnosti black-box modelu. Finální model je nasazen jako webová aplikace využívající Flask a HTML, do které se vyplní formulář žádosti o úvěr a která pak vrátí výsledek o schválení úvěru, pravděpodobnost defaultu a LIME - lokální vysvětlitelnost black-box modelu okolo samotné predikce.
Keywords:	Kreditní riziko; Pravděpodobnost defaultu; Webová aplikace; Bayesovská optimalizace; Strojové učení; Machine learning; Úvěry; Python

Information about study

Study programme:	Bankovnictví a pojišťovnictví
Type of study programme:	Magisterský studijní program
Assigned degree:	Ing.
Institutions assigning academic degree:	Vysoká škola ekonomická v Praze
Faculty:	Faculty of Finance and Accounting
Department:	Department of Banking and Insurance

Information on submission and defense

Date of assignment:	20. 2. 2022
Date of submission:	25. 5. 2023
Date of defense:	15. 6. 2023
Identifier in the InSIS system:	https://insis.vse.cz/zp/80349/podrobnosti

Files for download

Main text
80349_ngup07.pdf, 16.3 MB Download

Public annex
26408_ngup07.zip, 35.7 MB Download

Public annex
26409_ngup07.pdf, 397.4 kB Download

Opponent's review
78704_xpall999.pdf, 54.7 kB Download

Supervisor's review
80349_tepp00.pdf, 56.6 kB Download