Moderní přístupy k nahrazování chybějících hodnot v kategoriálních datech
Autor(ka) práce:
Hončíková, Markéta
Typ práce:
Bakalářská práce
Vedoucí práce:
Horníček, Jaroslav
Oponenti práce:
Šulc, Zdeněk
Jazyk práce:
Česky
Abstrakt:
Bakalářská práce se zaměřuje na moderní přístupy k nahrazování chybějících hodnot v kategoriálních datech. Cílem práce je porovnat efektivitu a přesnost algoritmů MICE a EM při nahrazování chybějících kategoriálních hodnot v různých scénářích. Tyto pokročilé metody jsou zároveň porovnávány s jednoduššími přístupy nahrazování chybějících hodnot, aby bylo možné zhodnotit jejich přínos v porovnání s méně náročnými řešeními. Vedle popisu základní terminologie, typům mechanismů vzniku chybějících hodnot a následným přístupům k jejich řešení, je práce věnována popisu implementace algoritmů MICE a EM v prostředí R. Ty jsou aplikovány na reálné datové soubory se simulovanými chybějícími hodnotami různých typů. V experimentální části jsou vyhodnoceny výsledky nahrazení chybějících hodnot pomocí vhodných metrik s ohledem na typ chybějících hodnot a strukturu kategoriálních dat. Závěry práce poskytují doporučení pro výběr optimální metody nahrazení v závislosti na charakteristikách datového souboru a typu chybějících hodnot. Práce tak může pomoci výzkumníkům a analytikům při práci s neúplnými kategoriálními daty.
Klíčová slova:
chybějící hodnoty; kategoriální data; mnohonásobná imputace; EM algoritmus; MICE algoritmus
Název práce:
Modern approaches to imputing missing values in categorical data
Autor(ka) práce:
Hončíková, Markéta
Typ práce:
Bachelor thesis
Vedoucí práce:
Horníček, Jaroslav
Oponenti práce:
Šulc, Zdeněk
Jazyk práce:
Česky
Abstrakt:
The bachelor’s thesis focuses on modern approaches to imputing missing values in categorical data. The aim of the thesis is to compare the efficiency and accuracy of the MICE and EM algorithms in handling missing categorical data across various scenarios. These advanced methods are also compared with simple imputation methods to assess their added value in comparison to less demanding solutions. In addition to describing the basic terminology, types of missing data mechanisms, and approaches to solve them, the thesis also focuses on the implementation of the MICE and EM algorithms in the R environment. These methods are applied to real datasets with simulated missing values of different types. In the experimental section, the results of missing data imputation are evaluated using appropriate metrics, taking into account the type of missingness and the structure of the categorical data. The conclusions of the thesis provide recommendations for selecting the optimal imputation method based on the characteristics of the dataset and the type of missing values. Moreover the thesis can assist researchers and analysts in working with incomplete categorical data.
Klíčová slova:
categorical data; missing values; EM algorithm; multiple imputation; MICE algorithm
Informace o studiu
Studijní program / obor:
Matematické metody v ekonomii/Datové analýzy a modelování