| Thesis title: |
Predikce odlivu zákazníků pomocí metod strojového učení: případová studie na datech Netflix |
| Author: |
Vyhnálek, Václav |
| Thesis type: |
Bakalářská práce |
| Supervisor: |
Moreová, Barbara |
| Opponents: |
Zeman, Václav |
| Thesis language: |
Česky |
| Abstract: |
Tato bakalářská práce se zabývá problematikou predikce odlivu zákazníků (customer churn) v kontextu digitální streamovací předplatitelské služby. Cílem práce je natrénovat, porov- nat a vyhodnotit vybrané klasifikační modely strojového učení a posoudit jejich schopnost identifikovat zákazníky s vyšším rizikem odchodu ze služby. Praktická část práce vychází ze syntetického datasetu Netflix Customer Churn, který simuluje chování zákazníků video-streamovací platformy. Nejprve je provedena analýza a předzpracování dat, zahrnující čištění datasetu, práci s chybějícími hodnotami, úpravu vstupních proměnných a řešení nevyváženosti tříd. Na takto připravená data jsou následně aplikovány vybrané klasifikační metody strojového učení, konkrétně logistická regrese, rozhodovací strom, náhodný les a Gradient Boosting. Modely jsou porovnávány pomocí standardních hodnoticích metrik binární klasifikace. Výsledky práce ukazují, že ensemble metody dosahují lepší predikční výkonnosti než jednodušší lineární přístup. Jako nejvhodnější model se ukázal Gradient Boosting, který vykazuje nejlepší kombinaci separační schopnosti a stability výkonu. Analýza dále naznačuje, že při predikci churnu hrají významnou roli proměnné popisující aktivitu uživatele. Tyto závěry je však nutné interpretovat s ohledem na syntetický charakter použitého datasetu. Práce demonstruje, že metody strojového učení mohou sloužit jako efektivní nástroj pro podporu rozhodování v oblasti retenčních strategií digitálních předplatitelských služeb. |
| Keywords: |
predikce odlivu zákazníků; klasifikační modely; data mining; strojové učení; Gradient Boosting |
| Thesis title: |
Predikce odlivu zákazníků pomocí metod strojového učení: případová studie na datech Netflix |
| Author: |
Vyhnálek, Václav |
| Thesis type: |
Bachelor thesis |
| Supervisor: |
Moreová, Barbara |
| Opponents: |
Zeman, Václav |
| Thesis language: |
Česky |
| Abstract: |
This bachelor’s thesis focuses on the problem of customer churn prediction in the context of a digital subscription-based streaming service. The main objective of the thesis is to train, compare, and evaluate selected machine learning classification models and to assess their ability to identify customers with an increased risk of churn. The practical part of the thesis is based on a synthetic Netflix Customer Churn dataset, which simulates the behavior of users of a video-streaming platform. The workflow begins with data analysis and preprocessing, including data cleaning, handling missing values, feature transformations, and addressing potential class imbalance. Subsequently, several machine 4 learning classification methods are applied, namely logistic regression, decision tree, random forest, and gradient boosting. The models are evaluated using standard binary classification metrics. The results show that ensemble methods outperform simpler linear approaches in terms of predictive performance. Gradient Boosting is identified as the most suitable model, achieving the best balance between discriminatory power and performance stability. The analysis further indicates that user activity-related features play an important role in churn prediction. However, these findings should be interpreted with caution due to the synthetic nature of the dataset. The thesis demonstrates that machine learning models can serve as a valuable decision-support tool for customer retention strategies in digital subscription services. |
| Keywords: |
customer churn prediction; machine learning; Gradient Boosting; classification models; data mining |
Information about study
| Study programme: |
Aplikovaná informatika |
| Type of study programme: |
Bakalářský studijní program |
| Assigned degree: |
Bc. |
| Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
| Faculty: |
Faculty of Informatics and Statistics |
| Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
| Date of assignment: |
3. 2. 2026 |
| Date of submission: |
11. 5. 2026 |
| Date of defense: |
2026 |
Files for download
The files will be available after the defense of the thesis.