The evaluation of the success of methods in the cluster analysis

Thesis title: Hodnocení úspěšnosti metod při shlukové analýze
Author: Wustingerová, Gabriela
Thesis type: Diplomová práce
Supervisor: Löster, Tomáš
Opponents: Danko, Jakub
Thesis language: Česky
Shluková metoda je jednou z vícerozměrných metod. Jejím cílem je zařadit objekty do skupin neboli shluků podle jejich podobnosti v jednom shluku a zároveň odlišnosti od dalších shluků. V této diplomové práci, ve které je analýza prováděna na základě 25 souborů z internetové databáze „UCI Machine Learning Repository“, je porovnána úspěšnost shlukování objektů při využití původních proměnných včetně korelovaných a vytvořených hlavních komponent. První varianta průměrně zařazuje objekty s 68,97% úspěšností. Oproti tomu úspěšnost zařazení objektů s využitím komponent, vytvořených metodou hlavních komponent, je 65,99 %. Tato práce také porovnána úspěšnost zařazení objektů do shluků, a to mezi pěti konkrétními metodami shlukové analýzy. V této souvislosti je zjištěno, že v obou případech analýzy je nejúspěšnější metodou Wardova metoda. Její průměrná úspěšnost zařazení objektů na základě původních proměnných je 85,33 % a na základě proměnných získaných za pomoci metody hlavních komponent je o 5,17 procentního bodu nižší. Při porovnání úspěšnosti metod hodnocených na základě původních proměnných je zjištěno, že metoda nejvzdálenějšího souseda správně zařazuje 72,87 % objektů. Dalšími metoda s nižší úspěšností je mediánová metoda (63,76 %) a centroidní metoda (63,75 %). Nejméně úspěšnou metodou je metoda nejbližšího souseda (59,15 %). Při shlukování objektů s využitím komponent získaných z metody hlavních komponent je zjištěno, že pořadí úspěšnosti metod je stejné jako v předchozím případě. Metoda nejvzdálenějšího souseda vykazuje 66,38% úspěšnost zařazení objektů do shluků. Méně úspěšnou metodou je mediánová metoda (62,95 %) a centroidní metoda (61,43 %). Nejnižší úspěšnost opět ukazuje metoda nejbližšího souseda (59 %).
Keywords: metody shlukování; metoda hlavních komponent; euklidovská vzdálenost; úspěšnost shlukování
Thesis title: The evaluation of the success of methods in the cluster analysis
The cluster method is one of the multivariate methods. Its goal is to classify objects into groups (clusters) according to their similarity in one cluster and the difference from other clusters. This diploma thesis where the analysis is performed on the basis of 25 files from the Internet database "UCI Machine Learning Repository" compares the success of clustering objects using the original variables including the correlated and created main components. The first variant classifies objects with 68.97 % of success on the average. In contrast, the success rate of the classifying objects using components created by the main component method is 65.99 %. This work also compares the success of classifying objects into the clusters, between five specific methods of the cluster analysis. In this context, it is found that in both cases of analysis, the most successful method is the Ward´s method. Its average success rate for classifying objects based on the original variables is 85.33 % and based on the variables obtained using the principal components method, it is 5.17 percentage points lower. When comparing the success of methods evaluated on the basis of the original variables, it is found that the farthest neighbor method correctly classifies 72.87 % of the objects. Other methods with lower success are the median method (63.76 %) and the centroid method (63.75 %). The least successful method is the nearest neighbor method (59.15 %). When clustering objects using components obtained from principal components method, it is found that the order of success of the methods it is the same as in the previous case. The farthest neighbor method shows 66.38% success rate of classifying objects into the clusters. The less successful method are the median method (62.95 %) and the centroid method (61.43 %). The lowest success rate is again shown by the nearest neighbor method (59 %).
Keywords: clustering methods; success rate of clustering; principal components method; Euclidean distance

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 13. 6. 2019
Date of submission: 3. 5. 2021
Date of defense: 9. 6. 2021
Identifier in the InSIS system:

