Thesis title: |
Moderní přístupy k nahrazování chybějících hodnot v kategoriálních datech |
Author: |
Hončíková, Markéta |
Thesis type: |
Bakalářská práce |
Supervisor: |
Horníček, Jaroslav |
Opponents: |
Šulc, Zdeněk |
Thesis language: |
Česky |
Abstract: |
Bakalářská práce se zaměřuje na moderní přístupy k nahrazování chybějících hodnot v kategoriálních datech. Cílem práce je porovnat efektivitu a přesnost algoritmů MICE a EM při nahrazování chybějících kategoriálních hodnot v různých scénářích. Tyto pokročilé metody jsou zároveň porovnávány s jednoduššími přístupy nahrazování chybějících hodnot, aby bylo možné zhodnotit jejich přínos v porovnání s méně náročnými řešeními. Vedle popisu základní terminologie, typům mechanismů vzniku chybějících hodnot a následným přístupům k jejich řešení, je práce věnována popisu implementace algoritmů MICE a EM v prostředí R. Ty jsou aplikovány na reálné datové soubory se simulovanými chybějícími hodnotami různých typů. V experimentální části jsou vyhodnoceny výsledky nahrazení chybějících hodnot pomocí vhodných metrik s ohledem na typ chybějících hodnot a strukturu kategoriálních dat. Závěry práce poskytují doporučení pro výběr optimální metody nahrazení v závislosti na charakteristikách datového souboru a typu chybějících hodnot. Práce tak může pomoci výzkumníkům a analytikům při práci s neúplnými kategoriálními daty. |
Keywords: |
chybějící hodnoty; kategoriální data; mnohonásobná imputace; EM algoritmus; MICE algoritmus |
Thesis title: |
Modern approaches to imputing missing values in categorical data |
Author: |
Hončíková, Markéta |
Thesis type: |
Bachelor thesis |
Supervisor: |
Horníček, Jaroslav |
Opponents: |
Šulc, Zdeněk |
Thesis language: |
Česky |
Abstract: |
The bachelor’s thesis focuses on modern approaches to imputing missing values in categorical data. The aim of the thesis is to compare the efficiency and accuracy of the MICE and EM algorithms in handling missing categorical data across various scenarios. These advanced methods are also compared with simple imputation methods to assess their added value in comparison to less demanding solutions. In addition to describing the basic terminology, types of missing data mechanisms, and approaches to solve them, the thesis also focuses on the implementation of the MICE and EM algorithms in the R environment. These methods are applied to real datasets with simulated missing values of different types. In the experimental section, the results of missing data imputation are evaluated using appropriate metrics, taking into account the type of missingness and the structure of the categorical data. The conclusions of the thesis provide recommendations for selecting the optimal imputation method based on the characteristics of the dataset and the type of missing values. Moreover the thesis can assist researchers and analysts in working with incomplete categorical data. |
Keywords: |
categorical data; missing values; EM algorithm; multiple imputation; MICE algorithm |
Information about study
Study programme: |
Matematické metody v ekonomii/Datové analýzy a modelování |
Type of study programme: |
Bakalářský studijní program |
Assigned degree: |
Bc. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Statistics and Probability |
Information on submission and defense
Date of assignment: |
25. 11. 2024 |
Date of submission: |
12. 5. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.