Míry podobnosti pro nominální data v hierarchickém shlukování

Název práce: Similarity Measures for Nominal Data in Hierarchical Clustering
Autor(ka) práce: Šulc, Zdeněk
Typ práce: Dissertation thesis
Vedoucí práce: Řezanková, Hana
Oponenti práce: Šimůnek, Milan; Žambochová, Marta
Jazyk práce: English
Abstrakt:
This dissertation thesis deals with similarity measures for nominal data in hierarchical clustering, which can cope with variables with more than two categories, and which aspire to replace the simple matching approach standardly used in this area. These similarity measures take into account additional characteristics of a dataset, such as frequency distribution of categories or number of categories of a given variable. The thesis recognizes three main aims. The first one is an examination and clustering performance evaluation of selected similarity measures for nominal data in hierarchical clustering of objects and variables. To achieve this goal, four experiments dealing both with the object and variable clustering were performed. They examine the clustering quality of the examined similarity measures for nominal data in comparison with the commonly used similarity measures using a binary transformation, and moreover, with several alternative methods for nominal data clustering. The comparison and evaluation are performed on real and generated datasets. Outputs of these experiments lead to knowledge, which similarity measures can generally be used, which ones perform well in a particular situation, and which ones are not recommended to use for an object or variable clustering. The second aim is to propose a theory-based similarity measure, evaluate its properties, and compare it with the other examined similarity measures. Based on this aim, two novel similarity measures, Variable Entropy and Variable Mutability are proposed; especially, the former one performs very well in datasets with a lower number of variables. The third aim of this thesis is to provide a convenient software implementation based on the examined similarity measures for nominal data, which covers the whole clustering process from a computation of a proximity matrix to evaluation of resulting clusters. This goal was also achieved by creating the nomclust package for the software R, which covers this issue, and which is freely available.
Klíčová slova: object clustering; variable clustering; an R package; nominal data; similarity measures; hierarchical cluster analysis; evaluation criteria; data generation
Název práce: Míry podobnosti pro nominální data v hierarchickém shlukování
Autor(ka) práce: Šulc, Zdeněk
Typ práce: Disertační práce
Vedoucí práce: Řezanková, Hana
Oponenti práce: Šimůnek, Milan; Žambochová, Marta
Jazyk práce: English
Abstrakt:
Tato disertační práce se zabývá mírami podobnosti pro nominální data v hierarchickém shlukování, které umožňují zacházet s proměnnými s více než dvěma kategoriemi a které si kladou za cíl nahradit postupy založené na koeficientu prosté shody, které se v této oblasti běžně používají. Tyto míry podobnosti uvažují dodatečné informace ohledně datového souboru, jako je rozdělení četností kategorií u dané proměnné nebo počet jejích kategorií. Tato práce se věnuje třem hlavním cílům. Prvním cílem je prozkoumání a ohodnocení kvality shlukování vybraných měr podobnosti pro hierarchické shlukování objektů a proměnných. K dosažení tohoto cíle bylo provedeno několik experimentů, které se zabývají jak shlukováním objektů, tak proměnných. Tyto experimenty zkoumají kvalitu shluků vytvořených za pomocí zkoumaných měr podobnosti pro nominální data ve srovnání běžně používanými mírami podobnostmi využívajícími binární transformaci a dále s několika alternativními metodami pro shlukování nominálních dat. Toto porovnání je provedeno na reálných i generovaných souborech. Výstupy těchto experimentů vedou ke zjištění, které míry podobnosti jsou vhodné k obecnému použití, které podávají dobré výsledky v konktrétních situacích a které nejsou doporučeny pro shlukování objektů nebo proměnných. Druhým cílem práce je navržení míry podobnosti vycházející z teoretických předpokladů a její následné porovnání s ostatními zkoumanými mírami podobnosti. Na základě tohoto cíle byly představeny dvě nové míry podobnosti, Variable Entropy a Variable Mutability. Obzvláště prvně zmíněná míra podává velmi dobré výsledky u souborů s nižším počtem proměnných. Třetím cílem této práce je poskytnout komfortní sofwarové řešení založené na zkoumaných mírách podobnosti pro nominální data, které pokrývá celý proces shlukování od výpočtu matice vzdálenosti po hodnocení výsledných shluků. Tento cíl byl dosažen vytvořením balíčku nomclust pro program R, který řeší tuto problematiku a který je volně dostupný.
Klíčová slova: nominální data; shlukování proměnných; generování dat; R balíček; hierarchická shluková analýza; shlukování objektů; hodnotící kritéria; míry podobnosti

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 3. 2013
Datum podání práce: 31. 10. 2016
Datum obhajoby: 30. 1. 2017
Identifikátor v systému InSIS: https://insis.vse.cz/zp/42029/podrobnosti

Soubory ke stažení

    Poslední aktualizace: