Similarity Measures for Nominal Data in Hierarchical Clustering

Thesis title: Similarity Measures for Nominal Data in Hierarchical Clustering
Author: Šulc, Zdeněk
Thesis type: Dissertation thesis
Supervisor: Řezanková, Hana
Opponents: Šimůnek, Milan; Žambochová, Marta
Thesis language: English
Abstract:
This dissertation thesis deals with similarity measures for nominal data in hierarchical clustering, which can cope with variables with more than two categories, and which aspire to replace the simple matching approach standardly used in this area. These similarity measures take into account additional characteristics of a dataset, such as frequency distribution of categories or number of categories of a given variable. The thesis recognizes three main aims. The first one is an examination and clustering performance evaluation of selected similarity measures for nominal data in hierarchical clustering of objects and variables. To achieve this goal, four experiments dealing both with the object and variable clustering were performed. They examine the clustering quality of the examined similarity measures for nominal data in comparison with the commonly used similarity measures using a binary transformation, and moreover, with several alternative methods for nominal data clustering. The comparison and evaluation are performed on real and generated datasets. Outputs of these experiments lead to knowledge, which similarity measures can generally be used, which ones perform well in a particular situation, and which ones are not recommended to use for an object or variable clustering. The second aim is to propose a theory-based similarity measure, evaluate its properties, and compare it with the other examined similarity measures. Based on this aim, two novel similarity measures, Variable Entropy and Variable Mutability are proposed; especially, the former one performs very well in datasets with a lower number of variables. The third aim of this thesis is to provide a convenient software implementation based on the examined similarity measures for nominal data, which covers the whole clustering process from a computation of a proximity matrix to evaluation of resulting clusters. This goal was also achieved by creating the nomclust package for the software R, which covers this issue, and which is freely available.
Keywords: object clustering; variable clustering; an R package; nominal data; similarity measures; hierarchical cluster analysis; evaluation criteria; data generation
Thesis title: Míry podobnosti pro nominální data v hierarchickém shlukování
Author: Šulc, Zdeněk
Thesis type: Disertační práce
Supervisor: Řezanková, Hana
Opponents: Šimůnek, Milan; Žambochová, Marta
Thesis language: English
Abstract:
Tato disertační práce se zabývá mírami podobnosti pro nominální data v hierarchickém shlukování, které umožňují zacházet s proměnnými s více než dvěma kategoriemi a které si kladou za cíl nahradit postupy založené na koeficientu prosté shody, které se v této oblasti běžně používají. Tyto míry podobnosti uvažují dodatečné informace ohledně datového souboru, jako je rozdělení četností kategorií u dané proměnné nebo počet jejích kategorií. Tato práce se věnuje třem hlavním cílům. Prvním cílem je prozkoumání a ohodnocení kvality shlukování vybraných měr podobnosti pro hierarchické shlukování objektů a proměnných. K dosažení tohoto cíle bylo provedeno několik experimentů, které se zabývají jak shlukováním objektů, tak proměnných. Tyto experimenty zkoumají kvalitu shluků vytvořených za pomocí zkoumaných měr podobnosti pro nominální data ve srovnání běžně používanými mírami podobnostmi využívajícími binární transformaci a dále s několika alternativními metodami pro shlukování nominálních dat. Toto porovnání je provedeno na reálných i generovaných souborech. Výstupy těchto experimentů vedou ke zjištění, které míry podobnosti jsou vhodné k obecnému použití, které podávají dobré výsledky v konktrétních situacích a které nejsou doporučeny pro shlukování objektů nebo proměnných. Druhým cílem práce je navržení míry podobnosti vycházející z teoretických předpokladů a její následné porovnání s ostatními zkoumanými mírami podobnosti. Na základě tohoto cíle byly představeny dvě nové míry podobnosti, Variable Entropy a Variable Mutability. Obzvláště prvně zmíněná míra podává velmi dobré výsledky u souborů s nižším počtem proměnných. Třetím cílem této práce je poskytnout komfortní sofwarové řešení založené na zkoumaných mírách podobnosti pro nominální data, které pokrývá celý proces shlukování od výpočtu matice vzdálenosti po hodnocení výsledných shluků. Tento cíl byl dosažen vytvořením balíčku nomclust pro program R, který řeší tuto problematiku a který je volně dostupný.
Keywords: nominální data; shlukování proměnných; generování dat; R balíček; hierarchická shluková analýza; shlukování objektů; hodnotící kritéria; míry podobnosti

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 6. 3. 2013
Date of submission: 31. 10. 2016
Date of defense: 30. 1. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/42029/podrobnosti

Files for download

    Last update: