Vliv nahrazení chybějících pozorování na vybrané statistické analýzy
Název práce: | Vliv nahrazení chybějících pozorování na vybrané statistické analýzy |
---|---|
Autor(ka) práce: | Nováková, Lucie |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Cibulková, Jana |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | Tato bakalářská práce je věnována problému chybějících pozorování v datech. Zabývá se příčinamia mechanismy vzniku chybějících pozorování a především se zaměřuje na metody,kterých lze využít při práci s nimi. Cílem práce je popsat některé metody přístupu k chybějícímdatům a prozkoumat jejich vliv na vybrané statistické analýzy. Práci je možné rozdělit nateoretickou a praktickou část. V teoretické části nejprve dochází k popisu důvodů vzniku chybějícíchdat a představení typů a mechanismů vzniku chybějících dat. Těžištěm teoretické částipráce je představení a důkladný popis osmi vybraných metod přístupu k chybějícím datům.Tyto metody jsou v práci rozděleny do dvou základních skupin, na eliminační a imputační.Imputační metody jsou dále děleny na deterministické a stochastické. Závěr teoretické částije věnován představení metod a nástrojů explorační a shlukové analýzy, které jsou využityv praktické části. Praktická část práce demonstruje vliv odstranění nebo nahrazení chybějícíchpozorování reálného datového souboru pomocí metod popsaných v teoretické části navýstupy explorační a shlukové analýzy s využitím programovacího jazyka R. |
Klíčová slova: | imputační metody; chybějící hodnoty; eliminační metody; mechanismy vzniku chybějících dat; neúplná data |
Název práce: | The effect of imputation of missing values on selected statistical analyses |
---|---|
Autor(ka) práce: | Nováková, Lucie |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Cibulková, Jana |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | This bachelor’s thesis concerns the problem of missing values in data sets, not only in termsof the reasons and mechanisms that may lead to missing values but mainly in terms ofthe methods that can be used to deal with them. The aim of the thesis is to describe theaforementioned methods and examine the effect they have on selected statistical analyses. Thethesis is divided into theoretical and practical part. The theoretical part firstly deals with thereasons behind missing values and introduces missing data types and mechanisms. The mainsubject of the theoretical part is a detailed description of eight selected methods for handlingmissing data. These methods are divided into two main groups – the deletion methods andthe imputation methods. Among the imputation methods, we can also distinguish betweendeterministic and stochastic imputation methods. A brief introduction to the methods andtools of exploratory data analysis and cluster analysis, which are used in the practical part, isalso a part of the theoretical part of this thesis. The practical part demonstrates the effect ofdeleting or imputing missing values in a real data set – with the use of all methods describedin the theoretical part – on the outputs of exploratory data analysis and cluster analysis. TheR programming language is used in the practical part of this thesis. |
Klíčová slova: | deletion methods; missing values; imputation methods; missing data mechanisms; incomplete data sets |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statistické metody v ekonomii |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 12. 12. 2018 |
---|---|
Datum podání práce: | 6. 5. 2019 |
Datum obhajoby: | 13. 6. 2019 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/68057/podrobnosti |