The effect of imputation of missing values on selected statistical analyses
Thesis title: | Vliv nahrazení chybějících pozorování na vybrané statistické analýzy |
---|---|
Author: | Nováková, Lucie |
Thesis type: | Bakalářská práce |
Supervisor: | Cibulková, Jana |
Opponents: | Šulc, Zdeněk |
Thesis language: | Česky |
Abstract: | Tato bakalářská práce je věnována problému chybějících pozorování v datech. Zabývá se příčinamia mechanismy vzniku chybějících pozorování a především se zaměřuje na metody,kterých lze využít při práci s nimi. Cílem práce je popsat některé metody přístupu k chybějícímdatům a prozkoumat jejich vliv na vybrané statistické analýzy. Práci je možné rozdělit nateoretickou a praktickou část. V teoretické části nejprve dochází k popisu důvodů vzniku chybějícíchdat a představení typů a mechanismů vzniku chybějících dat. Těžištěm teoretické částipráce je představení a důkladný popis osmi vybraných metod přístupu k chybějícím datům.Tyto metody jsou v práci rozděleny do dvou základních skupin, na eliminační a imputační.Imputační metody jsou dále děleny na deterministické a stochastické. Závěr teoretické částije věnován představení metod a nástrojů explorační a shlukové analýzy, které jsou využityv praktické části. Praktická část práce demonstruje vliv odstranění nebo nahrazení chybějícíchpozorování reálného datového souboru pomocí metod popsaných v teoretické části navýstupy explorační a shlukové analýzy s využitím programovacího jazyka R. |
Keywords: | imputační metody; chybějící hodnoty; eliminační metody; mechanismy vzniku chybějících dat; neúplná data |
Thesis title: | The effect of imputation of missing values on selected statistical analyses |
---|---|
Author: | Nováková, Lucie |
Thesis type: | Bachelor thesis |
Supervisor: | Cibulková, Jana |
Opponents: | Šulc, Zdeněk |
Thesis language: | Česky |
Abstract: | This bachelor’s thesis concerns the problem of missing values in data sets, not only in termsof the reasons and mechanisms that may lead to missing values but mainly in terms ofthe methods that can be used to deal with them. The aim of the thesis is to describe theaforementioned methods and examine the effect they have on selected statistical analyses. Thethesis is divided into theoretical and practical part. The theoretical part firstly deals with thereasons behind missing values and introduces missing data types and mechanisms. The mainsubject of the theoretical part is a detailed description of eight selected methods for handlingmissing data. These methods are divided into two main groups – the deletion methods andthe imputation methods. Among the imputation methods, we can also distinguish betweendeterministic and stochastic imputation methods. A brief introduction to the methods andtools of exploratory data analysis and cluster analysis, which are used in the practical part, isalso a part of the theoretical part of this thesis. The practical part demonstrates the effect ofdeleting or imputing missing values in a real data set – with the use of all methods describedin the theoretical part – on the outputs of exploratory data analysis and cluster analysis. TheR programming language is used in the practical part of this thesis. |
Keywords: | deletion methods; missing values; imputation methods; missing data mechanisms; incomplete data sets |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistické metody v ekonomii |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 12. 12. 2018 |
---|---|
Date of submission: | 6. 5. 2019 |
Date of defense: | 13. 6. 2019 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/68057/podrobnosti |