Application of machine learning for customer churn prediction
Thesis title: | Aplikace strojového učení pro predikci odchodu zákazníků |
---|---|
Author: | Hýbl, Jan |
Thesis type: | Diplomová práce |
Supervisor: | Witzany, Jiří |
Opponents: | Palán, Luděk |
Thesis language: | Česky |
Abstract: | Tato diplomová práce se zabývá aplikací strojového učení pro získání co nejkvalitnějšího modelu pro binární klasifikaci vytvořeného na datech o odchodech klientů z banky. První kapitola je věnována strojovému učení obecně a představení kroků nezbytných při jeho praktické aplikaci. V rámci kapitoly druhé je vysvětlen princip fungování rozhodovacích stromů, na což v kapitole třetí navazuje představení na nich postavených ensemble modelů. V praktické části jsou poté analyzovány dva vybrané datasety, díky nimž je znázorněno, že zatímco samostatný rozhodovací strom je oproti ensemble modelům z pohledu predikčních schopností značně slabý, vybrat konkrétního vítěze nelze, jelikož výkonnost zvolených ensemble modelů je velmi podobná. Po zahrnutí vlivu výpočetní náročnosti se tak jako nejatraktivnější jeví XGBClassifier. Zajímavým zjištěním ohledně optimalizace hyperparametrů je, že ve většině případů stačí pro dosažení téměř maximálních možných kvalit modelu vyzkoušet pouze několik málo náhodně vybraných kombinací jejich hodnot. Na závěr je s ohledem na relativně nízkou recall představena nutnost vhodné volby threshold hodnoty pro predikci. |
Keywords: | klasifikace; optimalizace hyperparametrů; AUC; precision; recall; strojové učení; Python |
Thesis title: | Application of machine learning for customer churn prediction |
---|---|
Author: | Hýbl, Jan |
Thesis type: | Diploma thesis |
Supervisor: | Witzany, Jiří |
Opponents: | Palán, Luděk |
Thesis language: | Česky |
Abstract: | This master thesis deals with the application of machine learning to obtain a model with the best possible predictive power for a binary classification using data about bank customer churn. The first chapter is devoted to machine learning in general and presenting the steps necessary in its practical application. In the second chapter, the principles of decision trees are explained, which is followed by the presentation of with them associated ensemble learning models. In the practical part, two selected datasets are then analyzed, which shows that while a simple decision tree is considerably weak compared to ensemble models from the perspective of predictive capabilities, the predictive powers of the selected ensemble models are very similar. After comparing also the computational complexity, XGBClassifier seems to be the most attractive algorithm. An interesting finding regarding the optimization of hyperparameters is that in most cases it is sufficient to try only a few randomly selected combinations of their values to achieve the almost maximum possible model quality. Finally, with regard to the relatively low recall, the need for an appropriate choice of threshold value for the prediction is presented. |
Keywords: | AUC; hyperparameter tuning; precision; machine learning; classification; recall; Python |
Information about study
Study programme: | Finanční inženýrství |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Finance and Accounting |
Department: | Department of Banking and Insurance |
Information on submission and defense
Date of assignment: | 30. 11. 2023 |
---|---|
Date of submission: | 21. 5. 2024 |
Date of defense: | 13. 6. 2024 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/86944/podrobnosti |