Hierarchická shluková analýza kategoriálních dat

Název práce: Hierarchical cluster analysis of categorical data
Autor(ka) práce: Šulc, Zdeněk
Typ práce: Habilitační práce
Vedoucí práce: -
Oponenti práce: Debicka, Joanna; Michálek, Jaroslav; Vojtková, Mária
Jazyk práce: English
Abstrakt:
This habilitation thesis deals with two important areas of hierarchical clustering of categorical data, namely similarity measures for categorical data represented by nominal variables with more than two categories and evaluation criteria for the cluster quality assessment. The conducted literature review shows more research needs to be done in this area. Thus, the thesis explores these topics deeply using two experiments based on generated datasets with controlled properties, such as the number of variables or clusters. The first experiment performed on 2,700 datasets analyzes 16 similarity measures concerning their ability to produce good-quality clusters in different dataset properties and linkage methods. Some of the analyzed similarity measures are analyzed for the very first time in the domain of cluster analysis. The second experiment performed on 8,100 datasets compares 11 evaluation criteria for categorical data proposed in various papers. Two of them are newly proposed in this thesis. The criteria are examined from different perspectives, such as their mutual similarity or dependence on the clustered dataset's properties. In the conclusions of both experiments, the most appropriate similarity measures for a specific dataset's properties and evaluation criteria for several intended tasks are recommended. Since the thesis focuses on a practical application of the research outcomes, it presents and further improves a convenient software application that enables researchers to easily replicate the results in the thesis and, more importantly, to perform advanced approaches to categorical data clustering on their own.
Klíčová slova: categorical data; comparison, similarity measures; evaluation criteria; hierarchical cluster analysis; R package
Název práce: Hierarchická shluková analýza kategoriálních dat
Autor(ka) práce: Šulc, Zdeněk
Typ práce: Habilitační práce
Vedoucí práce: -
Oponenti práce: Debicka, Joanna; Michálek, Jaroslav; Vojtková, Mária
Jazyk práce: English
Abstrakt:
Tato habilitační práce se věnuje dvěma důležitým oblastem hierarchického shlukování kategoriálních dat, a to mírám podobnosti pro kategoriální data obsahující nominální proměnné s více než dvěma kategoriemi a hodnoticím kritériím pro posouzení kvality shluků. Provedená rešerše literatury ukazuje, že v této oblasti je třeba provést další výzkum. Práce se tedy těmto tématům věnuje hlouběji prostřednictvím dvou experimentů založených na generovaných datových souborech s předem stanovenými parametry, jako je počet proměnných nebo shluků. V prvním experimentu, provedeném na 2 700 datových souborů, je analyzováno 16 měr podobnosti ohledně jejich schopnosti vytvářet kvalitní shluky u datových souborů s různými parametry a u různých metod shlukové analýzy. Některé z analyzovaných měr podobnosti jsou v oblasti shlukové analýzy zkoumány vůbec poprvé. Ve druhém experimentu, založeném na analýze 8 100 datových souborů, se porovnává 11 hodnoticích kritérií určených pro kategoriální data, která byla představena v různých článcích. Dvě z nich jsou navržena v této práci. Kritéria jsou zkoumána z různých hledisek, například na základě vzájemné podobnosti nebo závislosti na parametrech shlukovaného souboru dat. V závěrech obou experimentů jsou doporučeny nejvhodnější míry podobnosti pro typické situace a hodnoticí kritéria na základě zamýšlené úlohy. Vzhledem k tomu, že se práce zaměřuje na praktické využití výsledků výzkumu, je v ní představena a dále vylepšena softwarová aplikace, která umožňuje výzkumným pracovníkům snadno zopakovat výsledky uvedené v práci, a především samostatně provádět pokročilé metody shlukování kategoriálních dat.
Klíčová slova: kategoriální data; hierarchická shluková analýza; hodnoticí kritéria; porovnání, míry podobnosti; R balíček

Informace o studiu

Studijní program / obor: -
Typ studijního programu: Habilitační řízení studijní program
Přidělovaná hodnost: doc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Fakulta informatiky a statistiky

Informace o odevzdání a obhajobě

Datum zadání práce: 2. 10. 2023
Datum podání práce: 5. 4. 2024
Datum obhajoby: 4. 4. 2024
Identifikátor v systému InSIS: https://insis.vse.cz/zp/85856/podrobnosti

Soubory ke stažení

    Poslední aktualizace: