Evaluation of the client for providing a loan

Thesis title: Hodnocení klienta pro poskytnutí úvěru
Author: Marushev, Vasilii
Thesis type: Bakalářská práce
Supervisor: Koudelka, Jiří
Opponents: Habarta, Filip
Thesis language: Česky
Abstract:
Tato bakalářská práce se zaměřuje na rozlišování mezi dobrými a špatnými klienty za účelem poskytnutí úvěru pomocí logistické regrese a následné hodnocení diskriminační schopnosti vytvořeného modelu. Praktický výzkum využívá reálná data spotřebitelských úvěrů poskytnutá bankou, která zveřejnila svá data v soutěži na platformě Kaggle. Analytická a modelovací fáze probíhají v programovacím jazyce Python. Výzkum prezentovaný v této práci přináší vzhledy ze statistického pohledu do problematiky hodnocení klientů pro poskytnutí úvěru. Před modelováním byly provedeny úpravy a transformace proměnných, které byly klíčové pro nezkreslení výsledků modelu. Důraz byl kladen na nastavení vah kvůli nevyváženosti datového souboru, což vedlo k lepší klasifikaci defaultních klientů. Provedená ROC analýza na trénovacích datech potvrdila akceptovatelnou diskriminační schopnost modelu, což se potvrdilo i na testovací množině dat. Křížová validace potvrdila výsledek dosažený na testovacích datech. Na konci byla provedena diskuze o analýze klasifikační tabulky, ve které byly prezentovány důležité poznatky o výkonnosti modelu. Metody a postupy aplikované v této práci mají potenciál být využity i pro hodnocení pravděpodobnosti defaultu (PD), což je klíčový aspekt pro regulace bankovního sektoru, jako jsou standardy Basel II.
Keywords: Logistická regrese; ROC křivka; klasifikační tabulka; prahová hodnota
Thesis title: Evaluation of the client for providing a loan
Author: Marushev, Vasilii
Thesis type: Bachelor thesis
Supervisor: Koudelka, Jiří
Opponents: Habarta, Filip
Thesis language: Česky
Abstract:
This bachelor's thesis focuses on discriminating between good and bad clients for loan approval using logistic regression and then evaluating the discriminatory ability of the developed model. The practical research uses real consumer credit data from a bank that published their data in a competition on the Kaggle platform. The analytical and modeling phases are conducted in the Python programming language. The research presented in this paper provides insights from a statistical point of view into the problem of evaluating customers for credit. Before modeling, adjustments and transformations were made to the variables to avoid bias in the model results. Emphasis was placed on adjusting the weights due to an imbalance in the dataset, which led to better classification of default clients. The ROC analysis performed on the training data confirmed the acceptable discriminatory ability of the model, which was confirmed on the test dataset. Cross-validation confirmed the result obtained on the test data. Finally, a discussion of the classification table analysis was conducted, presenting important insights into the model's performance. The methods and procedures applied in this thesis can be used to evaluate the probability of default (PD), a key aspect of banking sector regulations such as Basel II standards.
Keywords: Roc curve; threshold; confusion matrix; Logistic regression

Information about study

Study programme: Matematické metody v ekonomii/Datové analýzy a modelování
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 4. 4. 2024
Date of submission: 5. 5. 2024
Date of defense: 11. 6. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/88197/podrobnosti

Files for download

    Last update: