Evaluation of Cluster Analysis Methods

Thesis title: Hodnocení výsledků metod shlukové analýzy
Author: Löster, Tomáš
Thesis type: Disertační práce
Supervisor: Řezanková, Hana
Opponents: Berka, Petr; Dohnal, Gejza
Thesis language: Česky
Abstract:
Shluková analýza zahrnuje řadu metod a postupů, které slouží především ke klasifikaci objektů. Zastává významnou roli v mnoha odvětvích. Vzhledem k tomu, že se výsledná rozdělení objektů do shluků mohou lišit v závislosti na zvolených metodách a dílčích specifikacích, je vhodné získané výsledky hodnotit. Jedním z cílů této disertační práce bylo vytvořit strukturovaný přehled existujících koeficientů a postupů určených pro hodnocení výsledků shlukování, a to jednak v závislosti na použitých metodách, jednak v závislosti na počtu shluků. Hlavním cílem pak bylo navržení nových, resp. modifikace existujících koeficientů pro hodnocení těchto výsledků v situaci, kdy jsou objekty charakterizované kvalitativními proměnnými, resp. proměnnými různých typů. Nově navržené koeficienty jsou založeny na zjišťování variability, která je současně využívána i pro stanovení odlišnosti objektů i shluků. Variabilita v případě nominálních proměnných je zjišťována buď na základě variačního poměru, nebo pomocí entropie, či Giniho koeficientu, v případě ordinálních proměnných pak na základě koeficientu dorvar; v případě kombinace s kvantitativními proměnnými jde o kombinaci s využitím rozptylu. Vhodnost použití vybraných koeficientů je zkoumána na reálných datech, u kterých je buď známé, nebo neznámé zařazení objektů do shluků. Analyzované datové soubory jsou různého rozsahu, obsahují různé typy a počty proměnných. V daných situacích je zjišťována možnost aplikace vybraných koeficientů pro stanovení optimálního počtu shluků. Cíle práce je tedy možné považovat za splněné. Přínosem této disertační práce je navržení nových způsobů měření podobnosti objektů a shluků v případech, jsou-li objekty charakterizovány jinými než pouze kvantitativními proměnnými. Dalším přínosem je klasifikace existujících hodnotících koeficientů. Stěžejním přínosem je navržení nových koeficientů pro případ kvalitativních proměnných, resp. proměnných různých typů. Na základě provedených analýz byl identifikován koeficient, pomocí něhož bylo možné správně určit optimální počet shluků (na rozdíl od dosud používaného koeficientu).
Keywords: shluková analýza; metody shlukování; hodnocení výsledků shlukování; míry vzdálenosti; optimální počet shluků; míry podobnosti
Thesis title: Evaluation of Cluster Analysis Methods
Author: Löster, Tomáš
Thesis type: Dissertation thesis
Supervisor: Řezanková, Hana
Opponents: Berka, Petr; Dohnal, Gejza
Thesis language: Česky
Abstract:
Cluster analysis includes a range of methods and practices that are used primarily for classification of objects. It takes an important role in many areas. Since the resulting distribution of objects into clusters may vary depending on the selected methods and specifications, it is appropriate to assess the results obtained. This paper proposes new ways of evaluating these results in a situation where objects are characterized by qualitative variables or by variables of different types. These coefficients can be used either to compare different methods (in terms of better outcomes) or for finding of the optimal number of clusters. All of them are based on the detection of variability which is also used for measuring of dissimilarity of objects and clusters. The newly proposed evaluation methods are applied to real data sets (of different sizes, with different number of variables, including variables of different types) and the behavior of these coefficients in different conditions is being examined. These data sets have known as well as unknown classification of objects into clusters. The best coefficient for evaluating clustering results with different types of variables can be considered, based on the analysis carried out, the modified coefficient of CHF. Local maximum value according to which the results of the clustering are evaluated, almost always exists. The analysis has proven that in most cases this value meets the expected results of the well-known classification of objects into clusters. The existence of local extremes of the other coefficients depends on specific data sets and is not always feasible.
Keywords: validity measures; methods for cluster analysis; optimal number of clusters; cluster analysis; validity assessment

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 30. 9. 2004
Date of submission: 9. 5. 2011
Date of defense: 29. 6. 2011
Identifier in the InSIS system: https://insis.vse.cz/zp/14594/podrobnosti

Files for download

    Last update: