The effect of imputation of missing values on selected statistical analyses

Thesis title: Vliv nahrazení chybějících pozorování na vybrané statistické analýzy
Author: Nováková, Lucie
Thesis type: Bakalářská práce
Supervisor: Cibulková, Jana
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
Tato bakalářská práce je věnována problému chybějících pozorování v datech. Zabývá se příčinamia mechanismy vzniku chybějících pozorování a především se zaměřuje na metody,kterých lze využít při práci s nimi. Cílem práce je popsat některé metody přístupu k chybějícímdatům a prozkoumat jejich vliv na vybrané statistické analýzy. Práci je možné rozdělit nateoretickou a praktickou část. V teoretické části nejprve dochází k popisu důvodů vzniku chybějícíchdat a představení typů a mechanismů vzniku chybějících dat. Těžištěm teoretické částipráce je představení a důkladný popis osmi vybraných metod přístupu k chybějícím datům.Tyto metody jsou v práci rozděleny do dvou základních skupin, na eliminační a imputační.Imputační metody jsou dále děleny na deterministické a stochastické. Závěr teoretické částije věnován představení metod a nástrojů explorační a shlukové analýzy, které jsou využityv praktické části. Praktická část práce demonstruje vliv odstranění nebo nahrazení chybějícíchpozorování reálného datového souboru pomocí metod popsaných v teoretické části navýstupy explorační a shlukové analýzy s využitím programovacího jazyka R.
Keywords: imputační metody; chybějící hodnoty; eliminační metody; mechanismy vzniku chybějících dat; neúplná data
Thesis title: The effect of imputation of missing values on selected statistical analyses
Author: Nováková, Lucie
Thesis type: Bachelor thesis
Supervisor: Cibulková, Jana
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
This bachelor’s thesis concerns the problem of missing values in data sets, not only in termsof the reasons and mechanisms that may lead to missing values but mainly in terms ofthe methods that can be used to deal with them. The aim of the thesis is to describe theaforementioned methods and examine the effect they have on selected statistical analyses. Thethesis is divided into theoretical and practical part. The theoretical part firstly deals with thereasons behind missing values and introduces missing data types and mechanisms. The mainsubject of the theoretical part is a detailed description of eight selected methods for handlingmissing data. These methods are divided into two main groups – the deletion methods andthe imputation methods. Among the imputation methods, we can also distinguish betweendeterministic and stochastic imputation methods. A brief introduction to the methods andtools of exploratory data analysis and cluster analysis, which are used in the practical part, isalso a part of the theoretical part of this thesis. The practical part demonstrates the effect ofdeleting or imputing missing values in a real data set – with the use of all methods describedin the theoretical part – on the outputs of exploratory data analysis and cluster analysis. TheR programming language is used in the practical part of this thesis.
Keywords: deletion methods; missing values; imputation methods; missing data mechanisms; incomplete data sets

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistické metody v ekonomii
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 12. 12. 2018
Date of submission: 6. 5. 2019
Date of defense: 13. 6. 2019
Identifier in the InSIS system: https://insis.vse.cz/zp/68057/podrobnosti

Files for download

    Last update: