Modern approaches to imputing missing values in categorical data

Thesis title: Moderní přístupy k nahrazování chybějících hodnot v kategoriálních datech
Author: Hončíková, Markéta
Thesis type: Bakalářská práce
Supervisor: Horníček, Jaroslav
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
Bakalářská práce se zaměřuje na moderní přístupy k nahrazování chybějících hodnot v kategoriálních datech. Cílem práce je porovnat efektivitu a přesnost algoritmů MICE a EM při nahrazování chybějících kategoriálních hodnot v různých scénářích. Tyto pokročilé metody jsou zároveň porovnávány s jednoduššími přístupy nahrazování chybějících hodnot, aby bylo možné zhodnotit jejich přínos v porovnání s méně náročnými řešeními. Vedle popisu základní terminologie, typům mechanismů vzniku chybějících hodnot a následným přístupům k jejich řešení, je práce věnována popisu implementace algoritmů MICE a EM v prostředí R. Ty jsou aplikovány na reálné datové soubory se simulovanými chybějícími hodnotami různých typů. V experimentální části jsou vyhodnoceny výsledky nahrazení chybějících hodnot pomocí vhodných metrik s ohledem na typ chybějících hodnot a strukturu kategoriálních dat. Závěry práce poskytují doporučení pro výběr optimální metody nahrazení v závislosti na charakteristikách datového souboru a typu chybějících hodnot. Práce tak může pomoci výzkumníkům a analytikům při práci s neúplnými kategoriálními daty.
Keywords: chybějící hodnoty; kategoriální data; mnohonásobná imputace; EM algoritmus; MICE algoritmus
Thesis title: Modern approaches to imputing missing values in categorical data
Author: Hončíková, Markéta
Thesis type: Bachelor thesis
Supervisor: Horníček, Jaroslav
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
The bachelor’s thesis focuses on modern approaches to imputing missing values in categorical data. The aim of the thesis is to compare the efficiency and accuracy of the MICE and EM algorithms in handling missing categorical data across various scenarios. These advanced methods are also compared with simple imputation methods to assess their added value in comparison to less demanding solutions. In addition to describing the basic terminology, types of missing data mechanisms, and approaches to solve them, the thesis also focuses on the implementation of the MICE and EM algorithms in the R environment. These methods are applied to real datasets with simulated missing values of different types. In the experimental section, the results of missing data imputation are evaluated using appropriate metrics, taking into account the type of missingness and the structure of the categorical data. The conclusions of the thesis provide recommendations for selecting the optimal imputation method based on the characteristics of the dataset and the type of missing values. Moreover the thesis can assist researchers and analysts in working with incomplete categorical data.
Keywords: categorical data; missing values; EM algorithm; multiple imputation; MICE algorithm

Information about study

Study programme: Matematické metody v ekonomii/Datové analýzy a modelování
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 25. 11. 2024
Date of submission: 12. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: