Hodnocení Výsledků Fuzzy Shlukování

Název práce: Evaluating of Fuzzy Clustering Results
Autor(ka) práce: Říhová, Elena
Typ práce: Dissertation thesis
Vedoucí práce: Pecáková, Iva
Oponenti práce: Řezanková, Hana; Žambochová, Marta
Jazyk práce: English
Abstrakt:
Cluster analysis is a multivariate statistical classification method, implying different methods and procedures. Clustering methods can be divided into hard and fuzzy; the latter one provides a more precise picture of the information by clustering objects than hard clustering. But in practice, the optimal number of clusters is not known a priori, and therefore it is necessary to determine the optimal number of clusters. To solve this problem, the validity indices help us. However, there are many different validity indices to choose from. One of the goals of this work is to create a structured overview of existing validity indices and techniques for evaluating fuzzy clustering results in order to find the optimal number of clusters. The main aim was to propose a new index for evaluating the fuzzy clustering results, especially in cases with a large number of clusters (defined as more than five). The newly designed coefficient is based on the degrees of membership and on the distance (Euclidean distance) between the objects, i.e. based on principles from both fuzzy and hard clustering. The suitability of selected validity indices was applied on real and generated data sets with known optimal number of clusters a priory. These data sets have different sizes, different numbers of variables, and different numbers of clusters. The aim of the current work is regarded as fulfilled. A key contribution of this work was a new coefficient (E), which is appropriate for evaluating situations with both large and small numbers of clusters. Because the new validity index is based on the principles of both fuzzy clustering and hard clustering, it is able to correctly determine the optimal number of clusters on both small and large data sets. A second contribution of this research was a structured overview of existing validity indices and techniques for evaluating the fuzzy clustering results.
Klíčová slova: evaluating fuzzy clustering results; validity indices; fuzzy sets; fuzzy clustering
Název práce: Hodnocení Výsledků Fuzzy Shlukování
Autor(ka) práce: Říhová, Elena
Typ práce: Disertační práce
Vedoucí práce: Pecáková, Iva
Oponenti práce: Řezanková, Hana; Žambochová, Marta
Jazyk práce: English
Abstrakt:
Shluková analýza je vícerozměrná klasifikační statistická metoda zahrnující různé metody a postupy. Lze rozlišit pevné a fuzzy shlukování, kdy druhá varianta umožňuje přesnější výsledné rozdělení objektů do shluků. V reálném životě optimální počet těchto shluků není a prioriznám. A proto je zapotřebí tento optimální počet shluků zjistit, což umožnují koeficienty pro hodnocení výsledků shlukování. Těchto koeficientů však existuje velký počet. Jedním z cílů této disertační práce bylo vytvořit strukturovaný přehled existujících koeficientů a postupů určených pro hodnocení výsledků fuzzy shlukování v závislosti na optimálním počtu shluků. Hlavním cílem pak bylo navržení nového koeficientu pro hodnocení výsledků fuzzy shlukování, a to hlavně v případě velkého počtů shluků (více než pět). Nově navržený koeficient je založen na mírách příslušnosti a na vzdálenosti (euklidovská vzdálenost) mezi objekty, to znamená na principech fuzzy i pevného shlukování. Vhodnost použití vybraných koeficientů je zkoumána jednak na reálných, jednak na generovaných datových souborech, u kterých optimální počet shluků je známý. Použité datové soubory jsou různého rozsahu a obsahují různé počty proměnných a různé počty shluků. Cíle práce je možné považovat za splněné. Stěžejním přínosem této disertační práce je navržení nového koeficientu (E) pro hodnocení výsledků fuzzy shlukování, a to jak v případě souborů s malým, tak v případě souborů s velkým počtem shluků (více než pět). Díky tomu, že tento nový koeficient je založen na principech fuzzy i pevného shlukování, je schopen lépe než jiné koeficienty určit optimální počet shluků jak u malých, tak i u velkých datových souborů. Dalším přínosem práce je klasifikace již existujících koeficientů pro hodnocení výsledků fuzzy shlukování.
Klíčová slova: fuzzy shlukování; indexy pro ověřování počtů shluků; fuzzy množiny; hodnocení výsledků shlukování

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 3. 2013
Datum podání práce: 6. 6. 2016
Datum obhajoby: 7. 9. 2016
Identifikátor v systému InSIS: https://insis.vse.cz/zp/42026/podrobnosti

Soubory ke stažení

    Poslední aktualizace: