The impact of outlying observations on selected statistical analyses in R

Thesis title: Vliv odlehlých pozorování na vybrané statistické analýzy v R
Author: Kopylov, Vladimir
Thesis type: Bakalářská práce
Supervisor: Cibulková, Jana
Opponents: Fojtík, Jan
Thesis language: Česky
Abstract:
Tato bakalářská práce je věnována problematice odlehlých pozorování v datovém souborů a jejich vlivu na vybrané statistické analýzy, konkrétně regresní a shlukové analýzy. Základní popis těchto statistických analýz jsou také součástí této bakalářské práce. Ale těžiskem práce jsou odlehlá pozorování. V práci jsou na teoretické úrovni prozkoumány vlastnosti odlehlých hodnot a představeny mechanismů jejich vzniku. Jsou zadefinovány a na ilustračních příkladech přiblíženy různé typy odlehlých pozorování. Pak je v práci představeno šest metod detekce odlehlých hodnot: pravidlo tří sigma, Tukeyova metoda, Mahalanobisova vzdálenost, DFBETA, Cookova vzdálenost a detekce pomocí shlukové analýzy. Je vysvětlen postup, vhodnost použití, výhody a nevýhody každé z uvedených metod detekce odlehlých pozorování. Nakonec jsou tyto teoretické poznatky uvedeny do praxe v experimentu, čím je možné na reálném datovém souboru demonstrovat vliv odlehlých pozorování na vybrané statistické analýzy. Pomoci každé z metod detekce odlehlých hodnot jsou detekovány a následně odstraněny potenciálně odlehlé hodnoty. Výsledky regresní a shlukové analýzy jsou srovnány s ohledem na použitou metodu detekce statistický na reálném datovém souboru. Experiment je založen na regresní analýze s jednou vysvětlující proměnnou a na dvou shlukových analýzách, jednou pomocí metod hierarchické shlukové analýzy a pak pomocí metody nehierarchické shlukové analýzy. Celý praktický postup je prováděn pomocí programovacího jazyka R, s doplňujícími zobrazeními výsledků analýzy pomocí grafů.
Keywords: vlivné pozorování; regresní analýza; shluková analýza; odlehlé pozorování
Thesis title: The impact of outlying observations on selected statistical analyses in R
Author: Kopylov, Vladimir
Thesis type: Bachelor thesis
Supervisor: Cibulková, Jana
Opponents: Fojtík, Jan
Thesis language: Česky
Abstract:
This bachelor thesis is devoted to the issue of outlying observations in a dataset and their impact on selected statistical analyses, specifically regression and cluster analysis. Basic description of these statistical analyses is included in this bachelor thesis. However, the focus of this thesis is outlying observations. This thesis explores the properties of outliers at a theoretical level and presents the mechanisms of their occurrence. Different types of outlying observations are defined and illustrated with examples. Then, six outlier detection methods are introduced in the paper: the three-sigma rule, Tukey’s method, Mahalanobis distance, DFBETA, Cook’s distance, and cluster analysis detection. The procedure, suitability of use, advantages and disadvantages of each of these methods for outlier detection are explained. Finally, these theoretical insights are implemented in an experiment to demonstrate the impact of outlying observations on selected statistical analyses on a real data set. Potential outlying values are detected and removed using each outlier detection method. The regression and cluster analysis results are compared with respect to the statistical detection method used on the real dataset. The experiment is based on a regression analysis with one explanatory variable and two cluster analyses, the first using hierarchical cluster analysis method and the second using a non-hierarchical cluster analysis method. The whole practical part is carried out using the R programming language, with additional graphical representations of the analyses results.
Keywords: outlier; influential observation; regression analysis; cluster analysis

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika a ekonometrie
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 15. 11. 2022
Date of submission: 8. 5. 2023
Date of defense: 14. 6. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/82790/podrobnosti

Files for download

    Last update: