Porovnání metod detekce odlehlých pozorování v regresních modelech
Název práce: | Porovnání metod detekce odlehlých pozorování v regresních modelech |
---|---|
Autor(ka) práce: | Mokrenová, Tereza |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Zouhar, Jan |
Oponenti práce: | Sokol, Ondřej |
Jazyk práce: | Česky |
Abstrakt: | Problematika odlehlých pozorování a jejich detekce je již dlouhou dobu součástí analýzy datového souboru. S rostoucím rozsahem řešených úloh v této oblasti a stejně tak komplexností datových sobourů vyvstávají nové výzvy a problémy. Tato práce si klade za cíl upozornit na důležitost volby vhodné techniky při detekci odlehlých pozorování v regresních modelech. Pomocí simulace Monte Carlo byla porovnána účinnost vybraných metod při různých úrovních kontaminace dat, rostoucím rozsahu souboru a druhu kontaminované proměnné. Výsledkem jsou doporučení ohledně opatrnosti nejen při volbě správné metody, ale zároveň vhodného nastavení vstupních parametrů daného algoritmu. |
Klíčová slova: | BACON; jackknife rezidua; regrese; tři sigma; Cookova metrika; detekce odlehlých pozorování |
Název práce: | A comparative evaluation of outlier detection algorithms in regression analysis |
---|---|
Autor(ka) práce: | Mokrenová, Tereza |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Zouhar, Jan |
Oponenti práce: | Sokol, Ondřej |
Jazyk práce: | Česky |
Abstrakt: | The presence of outliers and the problem with identifying them has been connected to data analysis for a long time. New problems and challenges arise due to the growing range of solved tasks and the complexity of data structure. This thesis aim to draw attention on selection of the most appropriate methods when we are dealing with outliers in regression analysis. We survey different methods for treating outliers by Monte Carlo experiments with different levels of contamination, numbers of observations and type of contaminated variable. As a result, we show that not only the selection of the most appropriate method is an important issue in real application domains, but we also have to be careful about parameters of the method. |
Klíčová slova: | BACON; jackknife residuals; Cook's distance; outliers; regression analysis; three sigma |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Matematické metody v ekonomii |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonometrie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 8. 2. 2021 |
---|---|
Datum podání práce: | 10. 5. 2021 |
Datum obhajoby: | 23. 6. 2021 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/76135/podrobnosti |