Performance of credit risk models in P2P lending

Thesis title: Performance of credit risk models in P2P lending
Author: Španko, Martin
Thesis type: Diploma thesis
Supervisor: Teplý, Petr
Opponents: Palán, Luděk
Thesis language: English
Abstract:
This thesis analyses machine learning algorithms for predicting P2P loan defaults based on data from the Zonky platform from February 2016 to October 2021. It analyses logistic regression, discriminant analysis, classification and regression trees, random forest, Naive Bayes, K-Nearest Neighbors, AdaBoost, and XGBoost, using metrics such as confusion matrix, ROC/AUC, Gini coefficient, Kolmogorov-Smirnov statistic, and Brier Score for evaluation. The results show that XGBoost and AdaBoost are the most effective, with Elastic Net Logistic Regression in third place. This study fills a gap in the research on default probability on the Zonky dataset and highlights payment behaviour as a key factor for predicting credit risk when evaluating P2P loans. This research contributes to the existing literature on loan default probability prediction and provides insights for risk management in P2P lending.
Keywords: AdaBoost; Credit Risk; Elastic Net Regression; Machine Learning; Peer-to-Peer Lending; Probability of Default; XGBoost; Zonky
Thesis title: Výkonnost modelů kreditního rizika v P2P úvěrování
Author: Španko, Martin
Thesis type: Diplomová práce
Supervisor: Teplý, Petr
Opponents: Palán, Luděk
Thesis language: English
Abstract:
Tato diplomová práce “Výkonnost modelů kreditního rizika v P2P úvěrování” se zabývá analýzou algoritmů strojového učení pro predikci defaultu P2P půjček na základě dat z platformy Zonky z období od února 2016 do října 2021. Analyzuje logistickou regresi, diskriminační analýzu, klasifikační a regresní stromy, random forest, Naive Bayes, K-Nearest Neighbours, AdaBoost a XGBoost, přičemž k vyhodnocení používá metriky, jako matice záměn, ROC/AUC, Giniho koeficient, Kolmogorov-Smirnovova statistika a Brier Score. Výsledky ukazují, že nejefektivnější jsou XGBoost a AdaBoost, na třetím místě je Elastic Net Logistic Regression. Tato studie vyplňuje mezeru ve výzkumu pravděpodobnosti defaultu na datasetu Zonky a zdůrazňuje platební chování jako klíčový faktor pro predikci úvěrového rizika při hodnocení P2P půjček. Tento výzkum přispívá k existující literatuře o predikci pravdepodobnosti defaultu úvěru a poskytuje poznatky pro řízení rizik v oblasti P2P půjček.
Keywords: Strojové učení; Peer-to-Peer půjčky; AdaBoost; Úvěrové riziko; Elastic Net Regression; Pravděpodobnost defaultu; XGBoost; Zonky

Information about study

Study programme: Bankovnictví a pojišťovnictví
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Finance and Accounting
Department: Department of Banking and Insurance

Information on submission and defense

Date of assignment: 1. 10. 2022
Date of submission: 10. 1. 2024
Date of defense: 1. 2. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/83217/podrobnosti

Files for download

    Last update: