Application of machine learning for customer churn prediction

Thesis title: Aplikace strojového učení pro predikci odchodu zákazníků
Author: Hýbl, Jan
Thesis type: Diplomová práce
Supervisor: Witzany, Jiří
Opponents: Palán, Luděk
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá aplikací strojového učení pro získání co nejkvalitnějšího modelu pro binární klasifikaci vytvořeného na datech o odchodech klientů z banky. První kapitola je věnována strojovému učení obecně a představení kroků nezbytných při jeho praktické aplikaci. V rámci kapitoly druhé je vysvětlen princip fungování rozhodovacích stromů, na což v kapitole třetí navazuje představení na nich postavených ensemble modelů. V praktické části jsou poté analyzovány dva vybrané datasety, díky nimž je znázorněno, že zatímco samostatný rozhodovací strom je oproti ensemble modelům z pohledu predikčních schopností značně slabý, vybrat konkrétního vítěze nelze, jelikož výkonnost zvolených ensemble modelů je velmi podobná. Po zahrnutí vlivu výpočetní náročnosti se tak jako nejatraktivnější jeví XGBClassifier. Zajímavým zjištěním ohledně optimalizace hyperparametrů je, že ve většině případů stačí pro dosažení téměř maximálních možných kvalit modelu vyzkoušet pouze několik málo náhodně vybraných kombinací jejich hodnot. Na závěr je s ohledem na relativně nízkou recall představena nutnost vhodné volby threshold hodnoty pro predikci.
Keywords: klasifikace; optimalizace hyperparametrů; AUC; precision; recall; strojové učení; Python
Thesis title: Application of machine learning for customer churn prediction
Author: Hýbl, Jan
Thesis type: Diploma thesis
Supervisor: Witzany, Jiří
Opponents: Palán, Luděk
Thesis language: Česky
Abstract:
This master thesis deals with the application of machine learning to obtain a model with the best possible predictive power for a binary classification using data about bank customer churn. The first chapter is devoted to machine learning in general and presenting the steps necessary in its practical application. In the second chapter, the principles of decision trees are explained, which is followed by the presentation of with them associated ensemble learning models. In the practical part, two selected datasets are then analyzed, which shows that while a simple decision tree is considerably weak compared to ensemble models from the perspective of predictive capabilities, the predictive powers of the selected ensemble models are very similar. After comparing also the computational complexity, XGBClassifier seems to be the most attractive algorithm. An interesting finding regarding the optimization of hyperparameters is that in most cases it is sufficient to try only a few randomly selected combinations of their values to achieve the almost maximum possible model quality. Finally, with regard to the relatively low recall, the need for an appropriate choice of threshold value for the prediction is presented.
Keywords: AUC; hyperparameter tuning; precision; machine learning; classification; recall; Python

Information about study

Study programme: Finanční inženýrství
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Finance and Accounting
Department: Department of Banking and Insurance

Information on submission and defense

Date of assignment: 30. 11. 2023
Date of submission: 21. 5. 2024
Date of defense: 13. 6. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/86944/podrobnosti

Files for download

    Last update: