The evaluation of coefficients when determining the optimal number of clusters in cluster analysis

Thesis title: Hodnocení úspěšnosti koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze
Author: Novák, Miroslav
Thesis type: Diplomová práce
Supervisor: Löster, Tomáš
Opponents: Makhalova, Elena
Thesis language: Česky
Abstract:
Cílem této diplomové práce je vyhodnotit úspěšnost vybraných koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze. Analytické vyhodnocení je provedeno na 20 nezávislých reálných datových souborech. Analýza je uskutečněna ve statistickém systému SYSTAT 13.1. Převážná část této práce je věnována praktické aplikaci koeficientů RMSSTD, CHF, PTS, DB a Dunnova indexu na reálná data, jelikož problematice hodnocení výsledků shlukování není v odborných publikacích věnována dostatečná pozornost. Hlavním cílem je tedy zjištění, zda vybrané koeficienty shlukování lze aplikovat v reálných situacích. Druhým cílem je porovnání vybraných metod shlukování a jejich příslušných metrik při určování optimálního počtu shluků. Závěrem je odhalení, že optimální počet shluků určený výše zmíněnými koeficienty nelze považovat za správný, jelikož po aplikaci na reálná data žádný z vybraných koeficientů nepřekonal úspěšnost 40 %, z toho důvodu je použití těchto koeficientů v praxi velmi omezené. Na základě praktické analýzy předem známý počet shluků nejlépe rozpoznává metoda průměrné vazby ve spojitosti s Euklidovou vzdáleností, naopak nejhůře se v praxi ukázala Wardova metoda ve spojitosti s Euklidovou vzdáleností.
Keywords: optimální počet shluků; shluková analýza; koeficienty shlukové analýzy
Thesis title: The evaluation of coefficients when determining the optimal number of clusters in cluster analysis
Author: Novák, Miroslav
Thesis type: Diploma thesis
Supervisor: Löster, Tomáš
Opponents: Makhalova, Elena
Thesis language: Česky
Abstract:
The objective of this thesis is the evaluation of selected coefficients of the cluster analysis when determining the optimal number of clusters. The analytical evaluation is performed on 20 independent real datasets. The analysis is made in statistical SYSTAT 13.1 Software. The application of coefficients RMSSTD, CHF, PTS, DB and Dunn's index on real datasets is the main part of this thesis, because the issue of evaluating the results of clustering is not devoted sufficient attention in scientific publications. The main goal is whether the selected coefficients of clustering can be applied in the real situations. The second goal is to compare selected clustering methods and their corresponding metrics when determining the optimal number of clusters. In conclusion, it is found that the optimal number of clusters determined by the coefficients mentioned above cannot be considered to be correct since, after application to the real data, none of the selected coefficients overcome the success rate of 40%, hence, the use of these coefficients in practice is very limited. Based on the practical analysis, the best method in identifying the known number of clusters is the average linkage in connection with the Euclidean distance, while the worst is the Ward's method in connection with the Euclidean distance.
Keywords: coefficients of cluster analysis; cluster analysis; optimal number of clusters

Information about study

Study programme: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 7. 10. 2014
Date of submission: 15. 5. 2015
Date of defense: 9. 6. 2015
Identifier in the InSIS system: https://insis.vse.cz/zp/49669/podrobnosti

Files for download

    Last update: