Hierarchical cluster analysis of categorical data

Thesis title: Hierarchical cluster analysis of categorical data
Author: Šulc, Zdeněk
Thesis type: Habilitační práce
Supervisor: -
Opponents: Debicka, Joanna; Michálek, Jaroslav; Vojtková, Mária
Thesis language: English
Abstract:
This habilitation thesis deals with two important areas of hierarchical clustering of categorical data, namely similarity measures for categorical data represented by nominal variables with more than two categories and evaluation criteria for the cluster quality assessment. The conducted literature review shows more research needs to be done in this area. Thus, the thesis explores these topics deeply using two experiments based on generated datasets with controlled properties, such as the number of variables or clusters. The first experiment performed on 2,700 datasets analyzes 16 similarity measures concerning their ability to produce good-quality clusters in different dataset properties and linkage methods. Some of the analyzed similarity measures are analyzed for the very first time in the domain of cluster analysis. The second experiment performed on 8,100 datasets compares 11 evaluation criteria for categorical data proposed in various papers. Two of them are newly proposed in this thesis. The criteria are examined from different perspectives, such as their mutual similarity or dependence on the clustered dataset's properties. In the conclusions of both experiments, the most appropriate similarity measures for a specific dataset's properties and evaluation criteria for several intended tasks are recommended. Since the thesis focuses on a practical application of the research outcomes, it presents and further improves a convenient software application that enables researchers to easily replicate the results in the thesis and, more importantly, to perform advanced approaches to categorical data clustering on their own.
Keywords: categorical data; comparison, similarity measures; evaluation criteria; hierarchical cluster analysis; R package
Thesis title: Hierarchická shluková analýza kategoriálních dat
Author: Šulc, Zdeněk
Thesis type: Habilitační práce
Supervisor: -
Opponents: Debicka, Joanna; Michálek, Jaroslav; Vojtková, Mária
Thesis language: English
Abstract:
Tato habilitační práce se věnuje dvěma důležitým oblastem hierarchického shlukování kategoriálních dat, a to mírám podobnosti pro kategoriální data obsahující nominální proměnné s více než dvěma kategoriemi a hodnoticím kritériím pro posouzení kvality shluků. Provedená rešerše literatury ukazuje, že v této oblasti je třeba provést další výzkum. Práce se tedy těmto tématům věnuje hlouběji prostřednictvím dvou experimentů založených na generovaných datových souborech s předem stanovenými parametry, jako je počet proměnných nebo shluků. V prvním experimentu, provedeném na 2 700 datových souborů, je analyzováno 16 měr podobnosti ohledně jejich schopnosti vytvářet kvalitní shluky u datových souborů s různými parametry a u různých metod shlukové analýzy. Některé z analyzovaných měr podobnosti jsou v oblasti shlukové analýzy zkoumány vůbec poprvé. Ve druhém experimentu, založeném na analýze 8 100 datových souborů, se porovnává 11 hodnoticích kritérií určených pro kategoriální data, která byla představena v různých článcích. Dvě z nich jsou navržena v této práci. Kritéria jsou zkoumána z různých hledisek, například na základě vzájemné podobnosti nebo závislosti na parametrech shlukovaného souboru dat. V závěrech obou experimentů jsou doporučeny nejvhodnější míry podobnosti pro typické situace a hodnoticí kritéria na základě zamýšlené úlohy. Vzhledem k tomu, že se práce zaměřuje na praktické využití výsledků výzkumu, je v ní představena a dále vylepšena softwarová aplikace, která umožňuje výzkumným pracovníkům snadno zopakovat výsledky uvedené v práci, a především samostatně provádět pokročilé metody shlukování kategoriálních dat.
Keywords: kategoriální data; hierarchická shluková analýza; hodnoticí kritéria; porovnání, míry podobnosti; R balíček

Information about study

Study programme: -
Type of study programme: Habilitační řízení studijní program
Assigned degree: doc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Faculty of Informatics and Statistics

Information on submission and defense

Date of assignment: 2. 10. 2023
Date of submission: 5. 4. 2024
Date of defense: 4. 4. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/85856/podrobnosti

Files for download

    Last update: