Vliv odlehlých pozorování na vybrané statistické analýzy v R

Název práce: Vliv odlehlých pozorování na vybrané statistické analýzy v R
Autor(ka) práce: Kopylov, Vladimir
Typ práce: Bakalářská práce
Vedoucí práce: Cibulková, Jana
Oponenti práce: Fojtík, Jan
Jazyk práce: Česky
Abstrakt:
Tato bakalářská práce je věnována problematice odlehlých pozorování v datovém souborů a jejich vlivu na vybrané statistické analýzy, konkrétně regresní a shlukové analýzy. Základní popis těchto statistických analýz jsou také součástí této bakalářské práce. Ale těžiskem práce jsou odlehlá pozorování. V práci jsou na teoretické úrovni prozkoumány vlastnosti odlehlých hodnot a představeny mechanismů jejich vzniku. Jsou zadefinovány a na ilustračních příkladech přiblíženy různé typy odlehlých pozorování. Pak je v práci představeno šest metod detekce odlehlých hodnot: pravidlo tří sigma, Tukeyova metoda, Mahalanobisova vzdálenost, DFBETA, Cookova vzdálenost a detekce pomocí shlukové analýzy. Je vysvětlen postup, vhodnost použití, výhody a nevýhody každé z uvedených metod detekce odlehlých pozorování. Nakonec jsou tyto teoretické poznatky uvedeny do praxe v experimentu, čím je možné na reálném datovém souboru demonstrovat vliv odlehlých pozorování na vybrané statistické analýzy. Pomoci každé z metod detekce odlehlých hodnot jsou detekovány a následně odstraněny potenciálně odlehlé hodnoty. Výsledky regresní a shlukové analýzy jsou srovnány s ohledem na použitou metodu detekce statistický na reálném datovém souboru. Experiment je založen na regresní analýze s jednou vysvětlující proměnnou a na dvou shlukových analýzách, jednou pomocí metod hierarchické shlukové analýzy a pak pomocí metody nehierarchické shlukové analýzy. Celý praktický postup je prováděn pomocí programovacího jazyka R, s doplňujícími zobrazeními výsledků analýzy pomocí grafů.
Klíčová slova: vlivné pozorování; regresní analýza; shluková analýza; odlehlé pozorování
Název práce: The impact of outlying observations on selected statistical analyses in R
Autor(ka) práce: Kopylov, Vladimir
Typ práce: Bachelor thesis
Vedoucí práce: Cibulková, Jana
Oponenti práce: Fojtík, Jan
Jazyk práce: Česky
Abstrakt:
This bachelor thesis is devoted to the issue of outlying observations in a dataset and their impact on selected statistical analyses, specifically regression and cluster analysis. Basic description of these statistical analyses is included in this bachelor thesis. However, the focus of this thesis is outlying observations. This thesis explores the properties of outliers at a theoretical level and presents the mechanisms of their occurrence. Different types of outlying observations are defined and illustrated with examples. Then, six outlier detection methods are introduced in the paper: the three-sigma rule, Tukey’s method, Mahalanobis distance, DFBETA, Cook’s distance, and cluster analysis detection. The procedure, suitability of use, advantages and disadvantages of each of these methods for outlier detection are explained. Finally, these theoretical insights are implemented in an experiment to demonstrate the impact of outlying observations on selected statistical analyses on a real data set. Potential outlying values are detected and removed using each outlier detection method. The regression and cluster analysis results are compared with respect to the statistical detection method used on the real dataset. The experiment is based on a regression analysis with one explanatory variable and two cluster analyses, the first using hierarchical cluster analysis method and the second using a non-hierarchical cluster analysis method. The whole practical part is carried out using the R programming language, with additional graphical representations of the analyses results.
Klíčová slova: outlier; influential observation; regression analysis; cluster analysis

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika a ekonometrie
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 15. 11. 2022
Datum podání práce: 8. 5. 2023
Datum obhajoby: 14. 6. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/82790/podrobnosti

Soubory ke stažení

    Poslední aktualizace: