The evaluation of coefficients when determining the optimal number of clusters in cluster analysis
Thesis title: | Hodnocení úspěšnosti koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze |
---|---|
Author: | Novák, Miroslav |
Thesis type: | Diplomová práce |
Supervisor: | Löster, Tomáš |
Opponents: | Makhalova, Elena |
Thesis language: | Česky |
Abstract: | Cílem této diplomové práce je vyhodnotit úspěšnost vybraných koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze. Analytické vyhodnocení je provedeno na 20 nezávislých reálných datových souborech. Analýza je uskutečněna ve statistickém systému SYSTAT 13.1. Převážná část této práce je věnována praktické aplikaci koeficientů RMSSTD, CHF, PTS, DB a Dunnova indexu na reálná data, jelikož problematice hodnocení výsledků shlukování není v odborných publikacích věnována dostatečná pozornost. Hlavním cílem je tedy zjištění, zda vybrané koeficienty shlukování lze aplikovat v reálných situacích. Druhým cílem je porovnání vybraných metod shlukování a jejich příslušných metrik při určování optimálního počtu shluků. Závěrem je odhalení, že optimální počet shluků určený výše zmíněnými koeficienty nelze považovat za správný, jelikož po aplikaci na reálná data žádný z vybraných koeficientů nepřekonal úspěšnost 40 %, z toho důvodu je použití těchto koeficientů v praxi velmi omezené. Na základě praktické analýzy předem známý počet shluků nejlépe rozpoznává metoda průměrné vazby ve spojitosti s Euklidovou vzdáleností, naopak nejhůře se v praxi ukázala Wardova metoda ve spojitosti s Euklidovou vzdáleností. |
Keywords: | optimální počet shluků; shluková analýza; koeficienty shlukové analýzy |
Thesis title: | The evaluation of coefficients when determining the optimal number of clusters in cluster analysis |
---|---|
Author: | Novák, Miroslav |
Thesis type: | Diploma thesis |
Supervisor: | Löster, Tomáš |
Opponents: | Makhalova, Elena |
Thesis language: | Česky |
Abstract: | The objective of this thesis is the evaluation of selected coefficients of the cluster analysis when determining the optimal number of clusters. The analytical evaluation is performed on 20 independent real datasets. The analysis is made in statistical SYSTAT 13.1 Software. The application of coefficients RMSSTD, CHF, PTS, DB and Dunn's index on real datasets is the main part of this thesis, because the issue of evaluating the results of clustering is not devoted sufficient attention in scientific publications. The main goal is whether the selected coefficients of clustering can be applied in the real situations. The second goal is to compare selected clustering methods and their corresponding metrics when determining the optimal number of clusters. In conclusion, it is found that the optimal number of clusters determined by the coefficients mentioned above cannot be considered to be correct since, after application to the real data, none of the selected coefficients overcome the success rate of 40%, hence, the use of these coefficients in practice is very limited. Based on the practical analysis, the best method in identifying the known number of clusters is the average linkage in connection with the Euclidean distance, while the worst is the Ward's method in connection with the Euclidean distance. |
Keywords: | coefficients of cluster analysis; cluster analysis; optimal number of clusters |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 7. 10. 2014 |
---|---|
Date of submission: | 15. 5. 2015 |
Date of defense: | 9. 6. 2015 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/49669/podrobnosti |