Evaluating of Fuzzy Clustering Results

Thesis title: Evaluating of Fuzzy Clustering Results
Author: Říhová, Elena
Thesis type: Dissertation thesis
Supervisor: Pecáková, Iva
Opponents: Řezanková, Hana; Žambochová, Marta
Thesis language: English
Abstract:
Cluster analysis is a multivariate statistical classification method, implying different methods and procedures. Clustering methods can be divided into hard and fuzzy; the latter one provides a more precise picture of the information by clustering objects than hard clustering. But in practice, the optimal number of clusters is not known a priori, and therefore it is necessary to determine the optimal number of clusters. To solve this problem, the validity indices help us. However, there are many different validity indices to choose from. One of the goals of this work is to create a structured overview of existing validity indices and techniques for evaluating fuzzy clustering results in order to find the optimal number of clusters. The main aim was to propose a new index for evaluating the fuzzy clustering results, especially in cases with a large number of clusters (defined as more than five). The newly designed coefficient is based on the degrees of membership and on the distance (Euclidean distance) between the objects, i.e. based on principles from both fuzzy and hard clustering. The suitability of selected validity indices was applied on real and generated data sets with known optimal number of clusters a priory. These data sets have different sizes, different numbers of variables, and different numbers of clusters. The aim of the current work is regarded as fulfilled. A key contribution of this work was a new coefficient (E), which is appropriate for evaluating situations with both large and small numbers of clusters. Because the new validity index is based on the principles of both fuzzy clustering and hard clustering, it is able to correctly determine the optimal number of clusters on both small and large data sets. A second contribution of this research was a structured overview of existing validity indices and techniques for evaluating the fuzzy clustering results.
Keywords: evaluating fuzzy clustering results; validity indices; fuzzy sets; fuzzy clustering
Thesis title: Hodnocení Výsledků Fuzzy Shlukování
Author: Říhová, Elena
Thesis type: Disertační práce
Supervisor: Pecáková, Iva
Opponents: Řezanková, Hana; Žambochová, Marta
Thesis language: English
Abstract:
Shluková analýza je vícerozměrná klasifikační statistická metoda zahrnující různé metody a postupy. Lze rozlišit pevné a fuzzy shlukování, kdy druhá varianta umožňuje přesnější výsledné rozdělení objektů do shluků. V reálném životě optimální počet těchto shluků není a prioriznám. A proto je zapotřebí tento optimální počet shluků zjistit, což umožnují koeficienty pro hodnocení výsledků shlukování. Těchto koeficientů však existuje velký počet. Jedním z cílů této disertační práce bylo vytvořit strukturovaný přehled existujících koeficientů a postupů určených pro hodnocení výsledků fuzzy shlukování v závislosti na optimálním počtu shluků. Hlavním cílem pak bylo navržení nového koeficientu pro hodnocení výsledků fuzzy shlukování, a to hlavně v případě velkého počtů shluků (více než pět). Nově navržený koeficient je založen na mírách příslušnosti a na vzdálenosti (euklidovská vzdálenost) mezi objekty, to znamená na principech fuzzy i pevného shlukování. Vhodnost použití vybraných koeficientů je zkoumána jednak na reálných, jednak na generovaných datových souborech, u kterých optimální počet shluků je známý. Použité datové soubory jsou různého rozsahu a obsahují různé počty proměnných a různé počty shluků. Cíle práce je možné považovat za splněné. Stěžejním přínosem této disertační práce je navržení nového koeficientu (E) pro hodnocení výsledků fuzzy shlukování, a to jak v případě souborů s malým, tak v případě souborů s velkým počtem shluků (více než pět). Díky tomu, že tento nový koeficient je založen na principech fuzzy i pevného shlukování, je schopen lépe než jiné koeficienty určit optimální počet shluků jak u malých, tak i u velkých datových souborů. Dalším přínosem práce je klasifikace již existujících koeficientů pro hodnocení výsledků fuzzy shlukování.
Keywords: fuzzy shlukování; indexy pro ověřování počtů shluků; fuzzy množiny; hodnocení výsledků shlukování

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 6. 3. 2013
Date of submission: 6. 6. 2016
Date of defense: 7. 9. 2016
Identifier in the InSIS system: https://insis.vse.cz/zp/42026/podrobnosti

Files for download

    Last update: