Performance of credit risk models in P2P lending
Thesis title: | Performance of credit risk models in P2P lending |
---|---|
Author: | Španko, Martin |
Thesis type: | Diploma thesis |
Supervisor: | Teplý, Petr |
Opponents: | Palán, Luděk |
Thesis language: | English |
Abstract: | This thesis analyses machine learning algorithms for predicting P2P loan defaults based on data from the Zonky platform from February 2016 to October 2021. It analyses logistic regression, discriminant analysis, classification and regression trees, random forest, Naive Bayes, K-Nearest Neighbors, AdaBoost, and XGBoost, using metrics such as confusion matrix, ROC/AUC, Gini coefficient, Kolmogorov-Smirnov statistic, and Brier Score for evaluation. The results show that XGBoost and AdaBoost are the most effective, with Elastic Net Logistic Regression in third place. This study fills a gap in the research on default probability on the Zonky dataset and highlights payment behaviour as a key factor for predicting credit risk when evaluating P2P loans. This research contributes to the existing literature on loan default probability prediction and provides insights for risk management in P2P lending. |
Keywords: | AdaBoost; Credit Risk; Elastic Net Regression; Machine Learning; Peer-to-Peer Lending; Probability of Default; XGBoost; Zonky |
Thesis title: | Výkonnost modelů kreditního rizika v P2P úvěrování |
---|---|
Author: | Španko, Martin |
Thesis type: | Diplomová práce |
Supervisor: | Teplý, Petr |
Opponents: | Palán, Luděk |
Thesis language: | English |
Abstract: | Tato diplomová práce “Výkonnost modelů kreditního rizika v P2P úvěrování” se zabývá analýzou algoritmů strojového učení pro predikci defaultu P2P půjček na základě dat z platformy Zonky z období od února 2016 do října 2021. Analyzuje logistickou regresi, diskriminační analýzu, klasifikační a regresní stromy, random forest, Naive Bayes, K-Nearest Neighbours, AdaBoost a XGBoost, přičemž k vyhodnocení používá metriky, jako matice záměn, ROC/AUC, Giniho koeficient, Kolmogorov-Smirnovova statistika a Brier Score. Výsledky ukazují, že nejefektivnější jsou XGBoost a AdaBoost, na třetím místě je Elastic Net Logistic Regression. Tato studie vyplňuje mezeru ve výzkumu pravděpodobnosti defaultu na datasetu Zonky a zdůrazňuje platební chování jako klíčový faktor pro predikci úvěrového rizika při hodnocení P2P půjček. Tento výzkum přispívá k existující literatuře o predikci pravdepodobnosti defaultu úvěru a poskytuje poznatky pro řízení rizik v oblasti P2P půjček. |
Keywords: | Strojové učení; Peer-to-Peer půjčky; AdaBoost; Úvěrové riziko; Elastic Net Regression; Pravděpodobnost defaultu; XGBoost; Zonky |
Information about study
Study programme: | Bankovnictví a pojišťovnictví |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Finance and Accounting |
Department: | Department of Banking and Insurance |
Information on submission and defense
Date of assignment: | 1. 10. 2022 |
---|---|
Date of submission: | 10. 1. 2024 |
Date of defense: | 1. 2. 2024 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/83217/podrobnosti |