Building credit scoring models using selected statistical methods in R

Thesis title: Vývoj kredit skóringových modelov s využitím vybraných štatistických metód v R
Author: Jánoš, Andrej
Thesis type: Diploma thesis
Supervisor: Bašta, Milan
Opponents: Pecáková, Iva
Thesis language: Slovensky
Abstract:
Kredit skóring je vo finančnej praxi dôležitou a rýchlo sa rozvíjajúcou disciplínou. Cieľom tejto práce je vytvoriť súhrn základných metodík používaných k vytvoreniu a popisu kredit skóringových modelov s interpretáciou ich výstupu spoločne s praktickou ilustráciou postupu pri vytváraní takýchto modelov v štatistickom programovom prostredí R. Táto práca je členená do piatich kapitol. Prvá kapitola je venovaná vysvetleniu pojmu kredit skóring spoločne s niekoľkými príkladmi praktického využitia a motiváciou pre jeho štúdium. V ďalšej časti práce sú postupne predstavené tri vo finančnej praxi najčastejšie používané metódy pre tvorbu kredit skóringových modelov. V druhej, najrozvinutejšej kapitole sa práca venuje logistickej regresii. Najväčší dôraz je kladený na matematické odvodenie vzťahu pre logistický regresný model a uvedených je niekoľko spôsobov ako posúdiť kvalitu preloženia dát modelom. Ďalšími dvomi metódami prezentovanými v tejto práci sú rozhodovacie stromy a náhodné lesy, ktorým sa venujú kapitoly 3 a 4. Neoddeliteľnou súčasťou tejto práce sú podrobne popísané aplikácie týchto metód na konkrétny dátový súbor Default v programovej platforme R. V záverečnej, piatej kapitole je praktická ilustrácia vytvorenia kredit skóringových modelov, ich diagnostiky a následného vyhodnotenia ich schopnosti predpovedať zlyhanie klienta v praxi s použitím R. V prílohách sú uvedené vytvorené funkcie a kód v R použité v práci. Čitateľ vybavený základnými poznatkami z pravdepodobnosti a matematickej štatistiky nadobudne dostatok teoretických znalostí a praktických zručností k pochopeniu modelov a ich samostatnej aplikácii.
Keywords: Random forests; rozhodovacie stromy; logistická regresia; kredit skóring
Thesis title: Vývoj kredit skóringových modelů s využitím vybraných statistických metod v R
Author: Jánoš, Andrej
Thesis type: Diplomová práce
Supervisor: Bašta, Milan
Opponents: Pecáková, Iva
Thesis language: Slovensky
Abstract:
Kredit skóring je ve finanční praxi důležitou a rychle se rozvíjející disciplínou. Cílem této práce je vytvořit souhrn základních metodik používaných k vytvoření a popisu kredit skóringových modelů s interpretací jejich výstupu společně s praktickou ilustrací postupu při vytváření těchto modelů v statistickém programovém prostředí R. Tato práce je členěná do pěti kapitol. První kapitola je věnovaná vysvětlení pojmu kredit skóring společně s několika příklady praktického využití a motivací pro jeho studium. V další části práce jsou postupně představené tři, ve finanční praxi nejčasteji používané, metody pro tvorbu kredit skóringových modelů. Ve druhé, nejrozvinutější kapitole se práce věnuje logistické regresi. Největší důraz je kladen na matematické odvození vztahu pro logistický regresní model a uvedeno je několik způsobů jako posoudit kvalitu proložení dat modelem. Dalšími dvěmi metodami prezentovanými v této práci jsou rozhodovací stromy a náhodné lesy, kterým se věnují kapitoly 3 a 4. Neoddělitelnou součástí této práce jsou podrobně popsané aplikace těchto metod na konkrétní datový soubor Default v programové platformě R. V závěrečné, páté, kapitole je praktická ilustrace vytvoření kredit skóringových modelů, jejich diagnostiky a následného vyhodnocení jejich schopnosti předpovídat selhání klienta v praxi s použitím R. V přílohách jsou uvedené vytvořené funkce a kód v R použité v práci. Čtenář vybavený základními poznatky z pravděpodobnosti a matematické statistiky získá dostatek teoretických znalostí a praktických zručností k pochopení modelů a jejich samostatné aplikaci.
Keywords: kredit skóring; Random forests; logistická regrese; rozhodovací stromy
Thesis title: Building credit scoring models using selected statistical methods in R
Author: Jánoš, Andrej
Thesis type: Diploma thesis
Supervisor: Bašta, Milan
Opponents: Pecáková, Iva
Thesis language: Slovensky
Abstract:
Credit scoring is important and rapidly developing discipline. The aim of this thesis is to describe basic methods used for building and interpretation of the credit scoring models with an example of application of these methods for designing such models using statistical software R. This thesis is organized into five chapters. In chapter one, the term of credit scoring is explained with main examples of its application and motivation for studying this topic. In the next chapters, three in financial practice most often used methods for building credit scoring models are introduced. In chapter two, the most developed one, logistic regression is discussed. The main emphasis is put on the logistic regression model, which is characterized from a mathematical point of view and also various ways to assess the quality of the model are presented. The other two methods presented in this thesis are decision trees and Random forests, these methods are covered by chapters three and four. An important part of this thesis is a detailed application of the described models to a specific data set Default using the R program. The final fifth chapter is a practical demonstration of building credit scoring models, their diagnostics and subsequent evaluation of their applicability in practice using R. The appendices include used R code and also functions developed for testing of the final model and code used through the thesis. The key aspect of the work is to provide enough theoretical knowledge and practical skills for a reader to fully understand the mentioned models and to be able to apply them in practice.
Keywords: Random forests; credit scoring; decision trees; logistic regression

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 4. 10. 2016
Date of submission: 5. 1. 2017
Date of defense: 1. 2. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/59233/podrobnosti

Files for download

    Last update: