Issues of outliers in classification tasks

Thesis title: Problematika odlehlých pozorování v klasifikačních úlohách
Author: Vu, Ngoc Phuong
Thesis type: Diplomová práce
Supervisor: Cibulková, Jana
Opponents: Řezanková, Hana
Thesis language: Česky
Abstract:
Tato práce se zabývá vlivem odlehlých pozorování na výsledky shlukové analýzy a metodami jejich detekce. V éře velkých dat je shlukování důležitým nástrojem pro extrakci informací, ale přítomnost odlehlých hodnot může vést ke zkresleným výsledkům. Práce kvantifikuje dopad odlehlých pozorování na kvalitu shluků a přesnost klasifikace, a to zvlášť pro kvantitativní a zvlášť pro kvalitativní data. Dále jsou vyhodnoceny vybrané metody detekce odlehlých hodnot a posouzen vliv jejich odstranění na výsledky shlukování. Práce je motivována nedostatečným prozkoumáním dané problematiky v literatuře, zejména s ohledem na přesnost klasifikace využitím shlukové analýzy. Experiment je realizován na datovém souboru Iris s uměle vloženými odlehlými hodnotami různých typů a diskretizací pro získání kategoriálních proměnných. Výsledky ukazují, jak přítomnost odlehlých pozorování ovlivňuje kvalitu shluků a přesnost klasifikace pro oba typy dat a srovnávají efektivitu různých metod jejich detekce. Práce přispívá k lepšímu porozumění dopadu odlehlých hodnot na klasifikaci shlukovou analýzou a poskytuje vodítko pro výběr vhodných metod jejich identifikace v závislosti na typech dat a odlehlých hodnot.
Keywords: shluková analýza; odlehlá pozorování; kvantitativní data; kvalitativní data; detekce odlehlých hodnot
Thesis title: Issues of outliers in classification tasks
Author: Vu, Ngoc Phuong
Thesis type: Diploma thesis
Supervisor: Cibulková, Jana
Opponents: Řezanková, Hana
Thesis language: Česky
Abstract:
This thesis investigates the influence of outliers on the results of cluster analysis and explores methods for their detection. In the era of big data we live in, clustering is an essential tool for extracting information. However, the presence of outliers can lead to misleading results. This research quantifies the impact of outliers on the quality of clusters and the accuracy of classification, considering both quantitative and qualitative data separately. Furthermore, the evaluation of the selected outlier detection methods are performed based on their precision. The motivation for this thesis comes from the lack of studies in this area, particularly concerning the accuracy of classification using clustering. The experimental analysis is conducted using well-known Iris dataset, into which various types of outliers are syntetically inserted. Additionally, binning is applied to obtain categorical variables. The results demonstrate how the presence of outliers influence the quality of clusters and the precision of classification for both data types, and compare the effectiveness of various outlier detection methods. This paper contributes to a better understanding of the impacts of outliers on cluster analysis and provides guidance for selecting appropriate outlier identification methods based on data and outlier types.
Keywords: cluster analysis; outliers; quantitative data; qualitative data; outlier detection

Information about study

Study programme: Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 31. 10. 2023
Date of submission: 28. 4. 2024
Date of defense: 3. 6. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/86349/podrobnosti

Files for download

    Last update: