Tato práce se zaměřuje na prediktivní analýzu odchodu zákazníků, známou jako churn prediction, a na využití strojového učení pro identifikaci zákazníků, kteří jsou pravděpodobně ohroženi odchodem. Cílem je zjistit, jakým způsobem mohou firmy využít strojové učení, konkrétně algoritmy eXtreme Gradient Boosting a Support Vector Machine, k lepší predikci tohoto odchodu. V práci jsou podrobně popsány metody jako feature engineering, ladění hyperparametrů a techniky pro vyrovnání nevyvážených dat, jako je Syntetická menšinová převzorkovací technika. Dále se zaměřuje na analýzu datového souboru, jeho přípravu a vytváření nových atributů, které mohou být užitečné pro modelování. V rámci experimentů bylo testováno několik přístupů a výsledky ukázaly, že i přes určité problémy s identifikací menšinové třídy byly výsledky modelů přínosné a ukázaly směry pro další zlepšení. Práce také doporučuje zlepšit výběr atributů, optimalizaci hyperparametrů a rozšíření datového souboru pro lepší výsledky v budoucnu.
Klíčová slova:
analýza zákaznických dat; predikce odchodu zákazníků; chování spotřebitelů; Strojové učení
Název práce:
Predictive analysis of customer churn
Autor(ka) práce:
Shulha, Mykhailo
Typ práce:
Bachelor thesis
Vedoucí práce:
Sokol, Ondřej
Oponenti práce:
Veverka, Lukáš
Jazyk práce:
Česky
Abstrakt:
This thesis focuses on predictive analysis of customer churn and the use of machine learning to identify customers who are likely to churn. The goal is to explore how companies can leverage machine learning algorithms, specifically eXtreme Gradient Boosting and Support Vector Machine, to better predict customer churn. The paper details methods such as feature engineering, hyperparameter tuning, and techniques for handling imbalanced data, like Synthetic Minority Oversampling Technique. It also covers the analysis of the dataset, data preparation, and the creation of new features that may be useful for modeling. Experiments were conducted using various approaches, and the results revealed that while there were challenges in identifying the minority class, the models still provided valuable insights and pointed to directions for further improvement. The paper also suggests improving feature selection, optimizing hyperparameters, and expanding the dataset to achieve better results in the future.
Klíčová slova:
consumer behavior; Churn prediction; machine learning; customer data analysis