Model for recognising the gender of customers of mobile network operators

Thesis title: Model pro rozpoznání pohlaví zákazníků operátorů mobilních sítí
Author: Štefanová, Lucie
Thesis type: Bakalářská práce
Supervisor: Zimmermann, Pavel
Opponents: Sládek, Václav
Thesis language: Česky
Abstract:
Cílem práce je na základě dat od operátora sestavit model na predikci pohlaví zákazníků používajících předplacené karty. Data, na kterých se model staví, pochází od zákazníků, kteří přešli z předplacené karty na tarifní plán. Použitou metodou pro řešení úlohy je logistická regrese, konkrétně varianta s binární vysvětlovanou proměnnou. Součástí práce je také úprava datového souboru pomocí shlukové analýzy a různé přístupy k výběru proměnných, které do modelu vstupují. Vytvořeno bylo několik modelů na základě různé úpravy dat, které se následně porovnaly pomocí hodnoty Akaikeho informačního kritéria. Poslední část práce obsahuje vyhodnocení výsledného modelu na základě metrik vycházejících z klasifikační tabulky, ROC křivky a hodnoty AUC. Mezi hlavní zjištění práce patří, že největší vliv na rozhodnutí o pohlaví zákazníka má značka telefonu, který používá, a informace o délce hovoru a počtu poslaných SMS zpráv. Dalším zjištěním je, že model dokáže na základě telekomunikačních dat lépe predikovat ženy než muže.
Keywords: binární vysvětlovaná proměnná; telekomunikace; logistická regrese
Thesis title: Model for recognising the gender of customers of mobile network operators
Author: Štefanová, Lucie
Thesis type: Bachelor thesis
Supervisor: Zimmermann, Pavel
Opponents: Sládek, Václav
Thesis language: Česky
Abstract:
The aim of this work is to create a model for gender prediction of customers using prepaid cards based on data from the operator. The data on which the model is built come from customers who have switched from a prepaid card to a tariff plan. The method used to solve the task is a logistic regression, specifically a variant with a binary explanatory variable. The work also includes editing the data file using cluster analysis and various approaches to selecting the variables that enter the model. Several models were created on the basis of various data modifications, which were subsequently compared using the value of the Akaike information criterion. The last part of the work contains an evaluation of the resulting model on the basis of metrics based on the confusion matrix, the ROC curve and the AUC value. Among the main findings of the work is that the biggest influence on a customer’s gender decision is the phone brand that uses and information on the length of calls and the number of text messages sent. Another finding is that on the basis of telecommunications data the model can better predict women than men.
Keywords: logistic regression; binary explanatory variable; telecommunication

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika a ekonometrie
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 14. 9. 2018
Date of submission: 6. 5. 2019
Date of defense: 13. 6. 2019
Identifier in the InSIS system: https://insis.vse.cz/zp/66626/podrobnosti

Files for download

Main text
Private file
Download
    Last update: