Predikce odlivu zákazníků pomocí metod strojového učení: případová studie na datech Netflix

Thesis title: Predikce odlivu zákazníků pomocí metod strojového učení: případová studie na datech Netflix
Author: Vyhnálek, Václav
Thesis type: Bakalářská práce
Supervisor: Moreová, Barbara
Opponents: Zeman, Václav
Thesis language: Česky
Abstract:
Tato bakalářská práce se zabývá problematikou predikce odlivu zákazníků (customer churn) v kontextu digitální streamovací předplatitelské služby. Cílem práce je natrénovat, porov- nat a vyhodnotit vybrané klasifikační modely strojového učení a posoudit jejich schopnost identifikovat zákazníky s vyšším rizikem odchodu ze služby. Praktická část práce vychází ze syntetického datasetu Netflix Customer Churn, který simuluje chování zákazníků video-streamovací platformy. Nejprve je provedena analýza a předzpracování dat, zahrnující čištění datasetu, práci s chybějícími hodnotami, úpravu vstupních proměnných a řešení nevyváženosti tříd. Na takto připravená data jsou následně aplikovány vybrané klasifikační metody strojového učení, konkrétně logistická regrese, rozhodovací strom, náhodný les a Gradient Boosting. Modely jsou porovnávány pomocí standardních hodnoticích metrik binární klasifikace. Výsledky práce ukazují, že ensemble metody dosahují lepší predikční výkonnosti než jednodušší lineární přístup. Jako nejvhodnější model se ukázal Gradient Boosting, který vykazuje nejlepší kombinaci separační schopnosti a stability výkonu. Analýza dále naznačuje, že při predikci churnu hrají významnou roli proměnné popisující aktivitu uživatele. Tyto závěry je však nutné interpretovat s ohledem na syntetický charakter použitého datasetu. Práce demonstruje, že metody strojového učení mohou sloužit jako efektivní nástroj pro podporu rozhodování v oblasti retenčních strategií digitálních předplatitelských služeb.
Keywords: predikce odlivu zákazníků; klasifikační modely; data mining; strojové učení; Gradient Boosting
Thesis title: Predikce odlivu zákazníků pomocí metod strojového učení: případová studie na datech Netflix
Author: Vyhnálek, Václav
Thesis type: Bachelor thesis
Supervisor: Moreová, Barbara
Opponents: Zeman, Václav
Thesis language: Česky
Abstract:
This bachelor’s thesis focuses on the problem of customer churn prediction in the context of a digital subscription-based streaming service. The main objective of the thesis is to train, compare, and evaluate selected machine learning classification models and to assess their ability to identify customers with an increased risk of churn. The practical part of the thesis is based on a synthetic Netflix Customer Churn dataset, which simulates the behavior of users of a video-streaming platform. The workflow begins with data analysis and preprocessing, including data cleaning, handling missing values, feature transformations, and addressing potential class imbalance. Subsequently, several machine 4 learning classification methods are applied, namely logistic regression, decision tree, random forest, and gradient boosting. The models are evaluated using standard binary classification metrics. The results show that ensemble methods outperform simpler linear approaches in terms of predictive performance. Gradient Boosting is identified as the most suitable model, achieving the best balance between discriminatory power and performance stability. The analysis further indicates that user activity-related features play an important role in churn prediction. However, these findings should be interpreted with caution due to the synthetic nature of the dataset. The thesis demonstrates that machine learning models can serve as a valuable decision-support tool for customer retention strategies in digital subscription services.
Keywords: customer churn prediction; machine learning; Gradient Boosting; classification models; data mining

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 3. 2. 2026
Date of submission: 11. 5. 2026
Date of defense: 2026

Files for download

The files will be available after the defense of the thesis.

    Last update: