Empirical comparison of imputation methods for missing values in data

Thesis title: Empirické porovnání metod nahrazování chybějicích hodnot v datech
Author: Ostrenska, Alona
Thesis type: Bakalářská práce
Supervisor: Holý, Vladimír
Opponents: Zouhar, Jan
Thesis language: Česky
Abstract:
Chybějící hodnoty jsou přítomné ve všech typech dat, jako jsou například různé průzkumy, společenskovědní informace atd. V mnoha aplikacích je nezbytné nahradit chybějící pozorování, aby byla zachována velikost datového souboru potřebná pro sledované statistiky. V práci jsou nejdříve představeny kategorie příčin chybění pozorování v datech a problémy s nimi spojené. Dále práce seznamuje s běžnými metodami imputace chybějících hodnot a je vysvětlena jejích aplikace na reálných datech v kontextu lineární regrese. Následně se ověřují předpoklady lineárních regresních modelů na datech s umělé vytvořenými chybějícími pozorováními. Tato pozorování jsou odstraněna pomocí zmíněných mechanismů a různého podílu chybění hodnot s následnou imputací sedmi zkoumanými metodami. Regresní modely zkonstruované na základě takto imputovaných dat se pak statisticky verifikují. Nakonec se imputované modely porovnávají mezi sebou pomocí různých statistik a vizualizací. Dále se navrhují konkrétní imputační metody v případě faktického problému chybějících dat.
Keywords: chybějící hodnoty; metody imputace; mechanismy chybění pozorování
Thesis title: Empirical comparison of imputation methods for missing values in data
Author: Ostrenska, Alona
Thesis type: Bachelor thesis
Supervisor: Holý, Vladimír
Opponents: Zouhar, Jan
Thesis language: Česky
Abstract:
Missing values are present in all types of data such as different surveys, socio-scientific information etc. In many applications, it is necessary to replace missing observations to maintain the size of the dataset needed for the statistics. This bachelor thesis at first place introduce the categories of causes of missing data and the problems connected with them. The next step is to acquaint with common methods of imputation of missing values and the explanation of applicating those methods on real data in the context of linear regression. Then the assumptions of linear regression models that are based on data with artificially created missing observations are verified. These observations are removed using the mentioned mechanisms and different proportion of missing, with seven subsequent imputation methods. Regression models constructed based on such imputed datasets are then statically verified. Finally, imputation models are compared using different statistics and visualizations and is suggested possible solution - particular methods in case of a real problem of incomplete data.
Keywords: missing data mechanisms; imputation methods; missing values

Information about study

Study programme: Kvantitativní metody v ekonomice/Matematické metody v ekonomii
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 3. 2. 2017
Date of submission: 31. 5. 2017
Date of defense: 21. 6. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/60580/podrobnosti

Files for download

    Last update: