Problematika odlehlých pozorování v klasifikačních úlohách
Název práce: | Problematika odlehlých pozorování v klasifikačních úlohách |
---|---|
Autor(ka) práce: | Vu, Ngoc Phuong |
Typ práce: | Diplomová práce |
Vedoucí práce: | Cibulková, Jana |
Oponenti práce: | Řezanková, Hana |
Jazyk práce: | Česky |
Abstrakt: | Tato práce se zabývá vlivem odlehlých pozorování na výsledky shlukové analýzy a metodami jejich detekce. V éře velkých dat je shlukování důležitým nástrojem pro extrakci informací, ale přítomnost odlehlých hodnot může vést ke zkresleným výsledkům. Práce kvantifikuje dopad odlehlých pozorování na kvalitu shluků a přesnost klasifikace, a to zvlášť pro kvantitativní a zvlášť pro kvalitativní data. Dále jsou vyhodnoceny vybrané metody detekce odlehlých hodnot a posouzen vliv jejich odstranění na výsledky shlukování. Práce je motivována nedostatečným prozkoumáním dané problematiky v literatuře, zejména s ohledem na přesnost klasifikace využitím shlukové analýzy. Experiment je realizován na datovém souboru Iris s uměle vloženými odlehlými hodnotami různých typů a diskretizací pro získání kategoriálních proměnných. Výsledky ukazují, jak přítomnost odlehlých pozorování ovlivňuje kvalitu shluků a přesnost klasifikace pro oba typy dat a srovnávají efektivitu různých metod jejich detekce. Práce přispívá k lepšímu porozumění dopadu odlehlých hodnot na klasifikaci shlukovou analýzou a poskytuje vodítko pro výběr vhodných metod jejich identifikace v závislosti na typech dat a odlehlých hodnot. |
Klíčová slova: | shluková analýza; odlehlá pozorování; kvantitativní data; kvalitativní data; detekce odlehlých hodnot |
Název práce: | Issues of outliers in classification tasks |
---|---|
Autor(ka) práce: | Vu, Ngoc Phuong |
Typ práce: | Diploma thesis |
Vedoucí práce: | Cibulková, Jana |
Oponenti práce: | Řezanková, Hana |
Jazyk práce: | Česky |
Abstrakt: | This thesis investigates the influence of outliers on the results of cluster analysis and explores methods for their detection. In the era of big data we live in, clustering is an essential tool for extracting information. However, the presence of outliers can lead to misleading results. This research quantifies the impact of outliers on the quality of clusters and the accuracy of classification, considering both quantitative and qualitative data separately. Furthermore, the evaluation of the selected outlier detection methods are performed based on their precision. The motivation for this thesis comes from the lack of studies in this area, particularly concerning the accuracy of classification using clustering. The experimental analysis is conducted using well-known Iris dataset, into which various types of outliers are syntetically inserted. Additionally, binning is applied to obtain categorical variables. The results demonstrate how the presence of outliers influence the quality of clusters and the precision of classification for both data types, and compare the effectiveness of various outlier detection methods. This paper contributes to a better understanding of the impacts of outliers on cluster analysis and provides guidance for selecting appropriate outlier identification methods based on data and outlier types. |
Klíčová slova: | cluster analysis; outliers; quantitative data; qualitative data; outlier detection |
Informace o studiu
Studijní program / obor: | Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 31. 10. 2023 |
---|---|
Datum podání práce: | 28. 4. 2024 |
Datum obhajoby: | 3. 6. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/86349/podrobnosti |