A comparison of different methods for handling missing data in regression models

Thesis title: Porovnanie alternatívnych metód práce s chýbajúcimi hodnotami v regresných modeloch
Author: Šicková, Barbora
Thesis type: Diploma thesis
Supervisor: Zouhar, Jan
Opponents: Frýd, Lukáš
Thesis language: Slovensky
Abstract:
Cieľom práce je porovnať vybrané techniky práce s chýbajúcimi hodnotami prostredníctvom Monte Carlo experimentov. Dáta generujúce procesy použité v simulačných experimentoch vychádzajú z reálneho, hojne študovaného dátového súboru. Výber techník práce s chýbajúcimi hodnotami sa zameriava na porovnanie jednoduchších konvenčných prístupov a modernejších postupov využívajúcich viacnásobnú imputáciu. Jednotlivé techniky porovnávame pomocou normovanej odmocniny strednej štvorcovej chyby, normovaného vychýlenia a pokrytia intervalov spoľahlivosti jednotlivých odhadnutých regresných koeficientov. Modely, ktorými sa zaoberáme zahŕňajú spojitú závislú premennú, interakcie, štvorce a binárne premenné. Takéto modely volíme preto, že vo väčšine výskumov sa stretávame s kategoriálnou závislou premennou a jednoduchšou štruktúrou modelu. Cieľom práce je preskúmať možnosti pri práci s dátami, ktoré obsahujú chýbajúce hodnoty a doposiaľ neboli v literatúre podrobne rozobrané.
Keywords: chýbajúce hodnoty; konvenčné metódy; viacnásobná imputácia
Thesis title: Porovnání alternativních metod práce s chybějícími hodnotami v regresních modelech
Author: Šicková, Barbora
Thesis type: Diplomová práce
Supervisor: Zouhar, Jan
Opponents: Frýd, Lukáš
Thesis language: Slovensky
Abstract:
Problém, se kterým se setkáváme u předpřípravy dat jsou chybějící hodnoty. Existuje více způsobů jak se v regresní analýze vypořádat s chybějícími hodnotami. Cílem práce je porovnat vybrané techniky práce s chybějícími hodnotami prostřednictvím Monte Carlo experimentů. Data generující procesy použité v simulačních experinetech vychází z~reálného, hojně studovaného datového souboru. Výběr technik práce s chybějícími hodnotami se zaměřuje na porovnání jednodušších konvenčních technik a modernějších postupů využívajících vícenásobné imputace. Jednotlivé techniky srovnáváme pomocí střední čtvercové chyby, vychýlení a pokrytí intervalů spolehlivosti odhadnutých regresních koeficientů. Modely, kterými se zaobíráme obsahují spojitou závislou proměnnou, interakce, čtverce a binární proměnné. Tyhle modely volíme proto, že ve věčšině výskumů se střetáváme s kategoríální závislou proměnnou a jednoduchší strukturou modelu. Cílem práce je prozkoumat možnosti u dat s chybějícími hodnotami, které nebyly v literatuře podrobně rozebrány.
Keywords: chybějící hodnoty; konvenční metody; vícenásobní imputace
Thesis title: A comparison of different methods for handling missing data in regression models
Author: Šicková, Barbora
Thesis type: Diploma thesis
Supervisor: Zouhar, Jan
Opponents: Frýd, Lukáš
Thesis language: Slovensky
Abstract:
This thesis aims to survey different methods for handling missing data in regression models by Monte Carlo experiments. Data generating processes used in simulation experiments are based on widely used real data set. The choice of missing data techniques aims to compare simpler conventional methods and modern multiple imputations. We compare these approaches according to normalized root mean square deviation, normalized bias and coverage probability of confidence intervals. Fitted regression models contain continuous dependent variable, squares, interactions and binary variables. We chose these models because in surveys we can mostly find categorical dependent variable and model structure is simpler. Nevertheless, the literature on missing data is greatly expanded, we can still find a gap in studies of missing data methods. The thesis aims to survey these methods and their application in regression models.
Keywords: missing data; conventional methods; multiple imputations

Information about study

Study programme: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 16. 11. 2017
Date of submission: 14. 5. 2018
Date of defense: 6. 6. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/65880/podrobnosti

Files for download

    Last update: