Clustering methods and evaluation of their classification ability
Thesis title: | Metody shlukové analýzy a hodnocení úspěšnosti jejich klasifikace |
---|---|
Author: | Janoutová, Eva |
Thesis type: | Diplomová práce |
Supervisor: | Šulc, Zdeněk |
Opponents: | Cibulková, Jana |
Thesis language: | Česky |
Abstract: | Cílem této diplomové práce je srovnání úspěšnosti vybraných metod shlukové analýzy za předpokladu známé klasifikace objektů do skupin. Tato analýza je prováděna na základě vygenerovaných kvantitativních dat. V reálném světě není často známé „pravé“ přiřazení objektů do shluků, a proto jsou v práci použita právě vygenerovaná data. Úspěšnost metod z hlediska klasifikace objektů do shluků je zkoumána na základě vybraných externích indexů. Celkově se jako nejlepší shluková metoda jeví metoda založená na smíšených modelech, z hierarchických metod se dále nejlépe umístila Wardova metoda s čtvercovou Euklidovskou vzdáleností. Dále bude podle vybraných indexů zkoumáno, zda má na úspěšnost klasifikace objektů do shluků vliv počet shluků, velikost shluku, počet proměnných či různá velikost minimální meziskupinové vzdálenosti. |
Keywords: | Gaussovy smíšené modely; hierarchické metody; metoda k-průměrů; shluková analýza; externí kritéria |
Thesis title: | Clustering methods and evaluation of their classification ability |
---|---|
Author: | Janoutová, Eva |
Thesis type: | Diploma thesis |
Supervisor: | Šulc, Zdeněk |
Opponents: | Cibulková, Jana |
Thesis language: | Česky |
Abstract: | This thesis aims to compare the ability of selected cluster analysis methods concerning classifying objects into known groups. This analysis is done by using generated quantitative data. In the real world, the “true” classification of objects into clusters is often not known. Therefore a generated type of data has been used in this thesis. The ability of the selected methods to classify objects into clusters is analysed by four external indices. Overall, the best cluster method is the Gaussian mixture model method, followed by the hierarchical Ward method with squared Euclidean distance. Additionally, according to the indices that are analysed, the number of clusters, size of the clusters, number of variables, and different minimal cluster distance affect the ability to classify objects into clusters. |
Keywords: | cluster analysis; hierarchical methods; k-means method; external indices; Gaussian mixture model |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 1. 3. 2019 |
---|---|
Date of submission: | 1. 12. 2019 |
Date of defense: | 29. 1. 2020 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/68969/podrobnosti |