Empirické porovnání metod nahrazování chybějicích hodnot v datech
Název práce: | Empirické porovnání metod nahrazování chybějicích hodnot v datech |
---|---|
Autor(ka) práce: | Ostrenska, Alona |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Holý, Vladimír |
Oponenti práce: | Zouhar, Jan |
Jazyk práce: | Česky |
Abstrakt: | Chybějící hodnoty jsou přítomné ve všech typech dat, jako jsou například různé průzkumy, společenskovědní informace atd. V mnoha aplikacích je nezbytné nahradit chybějící
pozorování, aby byla zachována velikost datového souboru potřebná pro sledované statistiky.
V práci jsou nejdříve představeny kategorie příčin chybění pozorování v datech a problémy
s nimi spojené. Dále práce seznamuje s běžnými metodami imputace chybějících hodnot a je
vysvětlena jejích aplikace na reálných datech v kontextu lineární regrese. Následně se ověřují
předpoklady lineárních regresních modelů na datech s umělé vytvořenými chybějícími
pozorováními. Tato pozorování jsou odstraněna pomocí zmíněných mechanismů a různého
podílu chybění hodnot s následnou imputací sedmi zkoumanými metodami. Regresní modely
zkonstruované na základě takto imputovaných dat se pak statisticky verifikují. Nakonec se
imputované modely porovnávají mezi sebou pomocí různých statistik a vizualizací. Dále se
navrhují konkrétní imputační metody v případě faktického problému chybějících dat. |
Klíčová slova: | chybějící hodnoty; metody imputace; mechanismy chybění pozorování |
Název práce: | Empirical comparison of imputation methods for missing values in data |
---|---|
Autor(ka) práce: | Ostrenska, Alona |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Holý, Vladimír |
Oponenti práce: | Zouhar, Jan |
Jazyk práce: | Česky |
Abstrakt: | Missing values are present in all types of data such as different surveys, socio-scientific
information etc. In many applications, it is necessary to replace missing observations to
maintain the size of the dataset needed for the statistics. This bachelor thesis at first place
introduce the categories of causes of missing data and the problems connected with them. The
next step is to acquaint with common methods of imputation of missing values and the
explanation of applicating those methods on real data in the context of linear regression. Then
the assumptions of linear regression models that are based on data with artificially created
missing observations are verified. These observations are removed using the mentioned
mechanisms and different proportion of missing, with seven subsequent imputation methods.
Regression models constructed based on such imputed datasets are then statically verified.
Finally, imputation models are compared using different statistics and visualizations and is
suggested possible solution - particular methods in case of a real problem of incomplete data. |
Klíčová slova: | missing data mechanisms; imputation methods; missing values |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Matematické metody v ekonomii |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonometrie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 3. 2. 2017 |
---|---|
Datum podání práce: | 31. 5. 2017 |
Datum obhajoby: | 21. 6. 2017 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/60580/podrobnosti |