Predikce odlivu zákazníků pomocí metod strojového učení: případová studie na datech Netflix

Název práce: Predikce odlivu zákazníků pomocí metod strojového učení: případová studie na datech Netflix
Autor(ka) práce: Vyhnálek, Václav
Typ práce: Bakalářská práce
Vedoucí práce: Moreová, Barbara
Oponenti práce: Zeman, Václav
Jazyk práce: Česky
Abstrakt:
Tato bakalářská práce se zabývá problematikou predikce odlivu zákazníků (customer churn) v kontextu digitální streamovací předplatitelské služby. Cílem práce je natrénovat, porov- nat a vyhodnotit vybrané klasifikační modely strojového učení a posoudit jejich schopnost identifikovat zákazníky s vyšším rizikem odchodu ze služby. Praktická část práce vychází ze syntetického datasetu Netflix Customer Churn, který simuluje chování zákazníků video-streamovací platformy. Nejprve je provedena analýza a předzpracování dat, zahrnující čištění datasetu, práci s chybějícími hodnotami, úpravu vstupních proměnných a řešení nevyváženosti tříd. Na takto připravená data jsou následně aplikovány vybrané klasifikační metody strojového učení, konkrétně logistická regrese, rozhodovací strom, náhodný les a Gradient Boosting. Modely jsou porovnávány pomocí standardních hodnoticích metrik binární klasifikace. Výsledky práce ukazují, že ensemble metody dosahují lepší predikční výkonnosti než jednodušší lineární přístup. Jako nejvhodnější model se ukázal Gradient Boosting, který vykazuje nejlepší kombinaci separační schopnosti a stability výkonu. Analýza dále naznačuje, že při predikci churnu hrají významnou roli proměnné popisující aktivitu uživatele. Tyto závěry je však nutné interpretovat s ohledem na syntetický charakter použitého datasetu. Práce demonstruje, že metody strojového učení mohou sloužit jako efektivní nástroj pro podporu rozhodování v oblasti retenčních strategií digitálních předplatitelských služeb.
Klíčová slova: predikce odlivu zákazníků; klasifikační modely; data mining; strojové učení; Gradient Boosting
Název práce: Predikce odlivu zákazníků pomocí metod strojového učení: případová studie na datech Netflix
Autor(ka) práce: Vyhnálek, Václav
Typ práce: Bachelor thesis
Vedoucí práce: Moreová, Barbara
Oponenti práce: Zeman, Václav
Jazyk práce: Česky
Abstrakt:
This bachelor’s thesis focuses on the problem of customer churn prediction in the context of a digital subscription-based streaming service. The main objective of the thesis is to train, compare, and evaluate selected machine learning classification models and to assess their ability to identify customers with an increased risk of churn. The practical part of the thesis is based on a synthetic Netflix Customer Churn dataset, which simulates the behavior of users of a video-streaming platform. The workflow begins with data analysis and preprocessing, including data cleaning, handling missing values, feature transformations, and addressing potential class imbalance. Subsequently, several machine 4 learning classification methods are applied, namely logistic regression, decision tree, random forest, and gradient boosting. The models are evaluated using standard binary classification metrics. The results show that ensemble methods outperform simpler linear approaches in terms of predictive performance. Gradient Boosting is identified as the most suitable model, achieving the best balance between discriminatory power and performance stability. The analysis further indicates that user activity-related features play an important role in churn prediction. However, these findings should be interpreted with caution due to the synthetic nature of the dataset. The thesis demonstrates that machine learning models can serve as a valuable decision-support tool for customer retention strategies in digital subscription services.
Klíčová slova: customer churn prediction; machine learning; Gradient Boosting; classification models; data mining

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 3. 2. 2026
Datum podání práce: 11. 5. 2026
Datum obhajoby: 2026

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: