Issues of outliers in classification tasks
Thesis title: | Problematika odlehlých pozorování v klasifikačních úlohách |
---|---|
Author: | Vu, Ngoc Phuong |
Thesis type: | Diplomová práce |
Supervisor: | Cibulková, Jana |
Opponents: | Řezanková, Hana |
Thesis language: | Česky |
Abstract: | Tato práce se zabývá vlivem odlehlých pozorování na výsledky shlukové analýzy a metodami jejich detekce. V éře velkých dat je shlukování důležitým nástrojem pro extrakci informací, ale přítomnost odlehlých hodnot může vést ke zkresleným výsledkům. Práce kvantifikuje dopad odlehlých pozorování na kvalitu shluků a přesnost klasifikace, a to zvlášť pro kvantitativní a zvlášť pro kvalitativní data. Dále jsou vyhodnoceny vybrané metody detekce odlehlých hodnot a posouzen vliv jejich odstranění na výsledky shlukování. Práce je motivována nedostatečným prozkoumáním dané problematiky v literatuře, zejména s ohledem na přesnost klasifikace využitím shlukové analýzy. Experiment je realizován na datovém souboru Iris s uměle vloženými odlehlými hodnotami různých typů a diskretizací pro získání kategoriálních proměnných. Výsledky ukazují, jak přítomnost odlehlých pozorování ovlivňuje kvalitu shluků a přesnost klasifikace pro oba typy dat a srovnávají efektivitu různých metod jejich detekce. Práce přispívá k lepšímu porozumění dopadu odlehlých hodnot na klasifikaci shlukovou analýzou a poskytuje vodítko pro výběr vhodných metod jejich identifikace v závislosti na typech dat a odlehlých hodnot. |
Keywords: | shluková analýza; odlehlá pozorování; kvantitativní data; kvalitativní data; detekce odlehlých hodnot |
Thesis title: | Issues of outliers in classification tasks |
---|---|
Author: | Vu, Ngoc Phuong |
Thesis type: | Diploma thesis |
Supervisor: | Cibulková, Jana |
Opponents: | Řezanková, Hana |
Thesis language: | Česky |
Abstract: | This thesis investigates the influence of outliers on the results of cluster analysis and explores methods for their detection. In the era of big data we live in, clustering is an essential tool for extracting information. However, the presence of outliers can lead to misleading results. This research quantifies the impact of outliers on the quality of clusters and the accuracy of classification, considering both quantitative and qualitative data separately. Furthermore, the evaluation of the selected outlier detection methods are performed based on their precision. The motivation for this thesis comes from the lack of studies in this area, particularly concerning the accuracy of classification using clustering. The experimental analysis is conducted using well-known Iris dataset, into which various types of outliers are syntetically inserted. Additionally, binning is applied to obtain categorical variables. The results demonstrate how the presence of outliers influence the quality of clusters and the precision of classification for both data types, and compare the effectiveness of various outlier detection methods. This paper contributes to a better understanding of the impacts of outliers on cluster analysis and provides guidance for selecting appropriate outlier identification methods based on data and outlier types. |
Keywords: | cluster analysis; outliers; quantitative data; qualitative data; outlier detection |
Information about study
Study programme: | Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 31. 10. 2023 |
---|---|
Date of submission: | 28. 4. 2024 |
Date of defense: | 3. 6. 2024 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/86349/podrobnosti |