A comparative evaluation of outlier detection algorithms in regression analysis
Thesis title: | Porovnání metod detekce odlehlých pozorování v regresních modelech |
---|---|
Author: | Mokrenová, Tereza |
Thesis type: | Bakalářská práce |
Supervisor: | Zouhar, Jan |
Opponents: | Sokol, Ondřej |
Thesis language: | Česky |
Abstract: | Problematika odlehlých pozorování a jejich detekce je již dlouhou dobu součástí analýzy datového souboru. S rostoucím rozsahem řešených úloh v této oblasti a stejně tak komplexností datových sobourů vyvstávají nové výzvy a problémy. Tato práce si klade za cíl upozornit na důležitost volby vhodné techniky při detekci odlehlých pozorování v regresních modelech. Pomocí simulace Monte Carlo byla porovnána účinnost vybraných metod při různých úrovních kontaminace dat, rostoucím rozsahu souboru a druhu kontaminované proměnné. Výsledkem jsou doporučení ohledně opatrnosti nejen při volbě správné metody, ale zároveň vhodného nastavení vstupních parametrů daného algoritmu. |
Keywords: | BACON; jackknife rezidua; regrese; tři sigma; Cookova metrika; detekce odlehlých pozorování |
Thesis title: | A comparative evaluation of outlier detection algorithms in regression analysis |
---|---|
Author: | Mokrenová, Tereza |
Thesis type: | Bachelor thesis |
Supervisor: | Zouhar, Jan |
Opponents: | Sokol, Ondřej |
Thesis language: | Česky |
Abstract: | The presence of outliers and the problem with identifying them has been connected to data analysis for a long time. New problems and challenges arise due to the growing range of solved tasks and the complexity of data structure. This thesis aim to draw attention on selection of the most appropriate methods when we are dealing with outliers in regression analysis. We survey different methods for treating outliers by Monte Carlo experiments with different levels of contamination, numbers of observations and type of contaminated variable. As a result, we show that not only the selection of the most appropriate method is an important issue in real application domains, but we also have to be careful about parameters of the method. |
Keywords: | BACON; jackknife residuals; Cook's distance; outliers; regression analysis; three sigma |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Matematické metody v ekonomii |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Econometrics |
Information on submission and defense
Date of assignment: | 8. 2. 2021 |
---|---|
Date of submission: | 10. 5. 2021 |
Date of defense: | 23. 6. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/76135/podrobnosti |