Hodnocení úspěšnosti metod při shlukové analýze

Název práce: Hodnocení úspěšnosti metod při shlukové analýze
Autor(ka) práce: Wustingerová, Gabriela
Typ práce: Diplomová práce
Vedoucí práce: Löster, Tomáš
Oponenti práce: Danko, Jakub
Jazyk práce: Česky
Abstrakt:
Shluková metoda je jednou z vícerozměrných metod. Jejím cílem je zařadit objekty do skupin neboli shluků podle jejich podobnosti v jednom shluku a zároveň odlišnosti od dalších shluků. V této diplomové práci, ve které je analýza prováděna na základě 25 souborů z internetové databáze „UCI Machine Learning Repository“, je porovnána úspěšnost shlukování objektů při využití původních proměnných včetně korelovaných a vytvořených hlavních komponent. První varianta průměrně zařazuje objekty s 68,97% úspěšností. Oproti tomu úspěšnost zařazení objektů s využitím komponent, vytvořených metodou hlavních komponent, je 65,99 %. Tato práce také porovnána úspěšnost zařazení objektů do shluků, a to mezi pěti konkrétními metodami shlukové analýzy. V této souvislosti je zjištěno, že v obou případech analýzy je nejúspěšnější metodou Wardova metoda. Její průměrná úspěšnost zařazení objektů na základě původních proměnných je 85,33 % a na základě proměnných získaných za pomoci metody hlavních komponent je o 5,17 procentního bodu nižší. Při porovnání úspěšnosti metod hodnocených na základě původních proměnných je zjištěno, že metoda nejvzdálenějšího souseda správně zařazuje 72,87 % objektů. Dalšími metoda s nižší úspěšností je mediánová metoda (63,76 %) a centroidní metoda (63,75 %). Nejméně úspěšnou metodou je metoda nejbližšího souseda (59,15 %). Při shlukování objektů s využitím komponent získaných z metody hlavních komponent je zjištěno, že pořadí úspěšnosti metod je stejné jako v předchozím případě. Metoda nejvzdálenějšího souseda vykazuje 66,38% úspěšnost zařazení objektů do shluků. Méně úspěšnou metodou je mediánová metoda (62,95 %) a centroidní metoda (61,43 %). Nejnižší úspěšnost opět ukazuje metoda nejbližšího souseda (59 %).
Klíčová slova: metody shlukování; metoda hlavních komponent; euklidovská vzdálenost; úspěšnost shlukování
Název práce: The evaluation of the success of methods in the cluster analysis
Autor(ka) práce: Wustingerová, Gabriela
Typ práce: Diploma thesis
Vedoucí práce: Löster, Tomáš
Oponenti práce: Danko, Jakub
Jazyk práce: Česky
Abstrakt:
The cluster method is one of the multivariate methods. Its goal is to classify objects into groups (clusters) according to their similarity in one cluster and the difference from other clusters. This diploma thesis where the analysis is performed on the basis of 25 files from the Internet database "UCI Machine Learning Repository" compares the success of clustering objects using the original variables including the correlated and created main components. The first variant classifies objects with 68.97 % of success on the average. In contrast, the success rate of the classifying objects using components created by the main component method is 65.99 %. This work also compares the success of classifying objects into the clusters, between five specific methods of the cluster analysis. In this context, it is found that in both cases of analysis, the most successful method is the Ward´s method. Its average success rate for classifying objects based on the original variables is 85.33 % and based on the variables obtained using the principal components method, it is 5.17 percentage points lower. When comparing the success of methods evaluated on the basis of the original variables, it is found that the farthest neighbor method correctly classifies 72.87 % of the objects. Other methods with lower success are the median method (63.76 %) and the centroid method (63.75 %). The least successful method is the nearest neighbor method (59.15 %). When clustering objects using components obtained from principal components method, it is found that the order of success of the methods it is the same as in the previous case. The farthest neighbor method shows 66.38% success rate of classifying objects into the clusters. The less successful method are the median method (62.95 %) and the centroid method (61.43 %). The lowest success rate is again shown by the nearest neighbor method (59 %).
Klíčová slova: clustering methods; success rate of clustering; principal components method; Euclidean distance

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 13. 6. 2019
Datum podání práce: 3. 5. 2021
Datum obhajoby: 9. 6. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/69996/podrobnosti

Soubory ke stažení

    Poslední aktualizace: