Problematika odlehlých pozorování v klasifikačních úlohách

Název práce: Problematika odlehlých pozorování v klasifikačních úlohách
Autor(ka) práce: Vu, Ngoc Phuong
Typ práce: Diplomová práce
Vedoucí práce: Cibulková, Jana
Oponenti práce: Řezanková, Hana
Jazyk práce: Česky
Abstrakt:
Tato práce se zabývá vlivem odlehlých pozorování na výsledky shlukové analýzy a metodami jejich detekce. V éře velkých dat je shlukování důležitým nástrojem pro extrakci informací, ale přítomnost odlehlých hodnot může vést ke zkresleným výsledkům. Práce kvantifikuje dopad odlehlých pozorování na kvalitu shluků a přesnost klasifikace, a to zvlášť pro kvantitativní a zvlášť pro kvalitativní data. Dále jsou vyhodnoceny vybrané metody detekce odlehlých hodnot a posouzen vliv jejich odstranění na výsledky shlukování. Práce je motivována nedostatečným prozkoumáním dané problematiky v literatuře, zejména s ohledem na přesnost klasifikace využitím shlukové analýzy. Experiment je realizován na datovém souboru Iris s uměle vloženými odlehlými hodnotami různých typů a diskretizací pro získání kategoriálních proměnných. Výsledky ukazují, jak přítomnost odlehlých pozorování ovlivňuje kvalitu shluků a přesnost klasifikace pro oba typy dat a srovnávají efektivitu různých metod jejich detekce. Práce přispívá k lepšímu porozumění dopadu odlehlých hodnot na klasifikaci shlukovou analýzou a poskytuje vodítko pro výběr vhodných metod jejich identifikace v závislosti na typech dat a odlehlých hodnot.
Klíčová slova: shluková analýza; odlehlá pozorování; kvantitativní data; kvalitativní data; detekce odlehlých hodnot
Název práce: Issues of outliers in classification tasks
Autor(ka) práce: Vu, Ngoc Phuong
Typ práce: Diploma thesis
Vedoucí práce: Cibulková, Jana
Oponenti práce: Řezanková, Hana
Jazyk práce: Česky
Abstrakt:
This thesis investigates the influence of outliers on the results of cluster analysis and explores methods for their detection. In the era of big data we live in, clustering is an essential tool for extracting information. However, the presence of outliers can lead to misleading results. This research quantifies the impact of outliers on the quality of clusters and the accuracy of classification, considering both quantitative and qualitative data separately. Furthermore, the evaluation of the selected outlier detection methods are performed based on their precision. The motivation for this thesis comes from the lack of studies in this area, particularly concerning the accuracy of classification using clustering. The experimental analysis is conducted using well-known Iris dataset, into which various types of outliers are syntetically inserted. Additionally, binning is applied to obtain categorical variables. The results demonstrate how the presence of outliers influence the quality of clusters and the precision of classification for both data types, and compare the effectiveness of various outlier detection methods. This paper contributes to a better understanding of the impacts of outliers on cluster analysis and provides guidance for selecting appropriate outlier identification methods based on data and outlier types.
Klíčová slova: cluster analysis; outliers; quantitative data; qualitative data; outlier detection

Informace o studiu

Studijní program / obor: Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 31. 10. 2023
Datum podání práce: 28. 4. 2024
Datum obhajoby: 3. 6. 2024
Identifikátor v systému InSIS: https://insis.vse.cz/zp/86349/podrobnosti

Soubory ke stažení

    Poslední aktualizace: