Comparison of new approaches for hierarchical clustering of mixed data with non-hierarchical methods

Thesis title: Porovnání nových přístupů hierarchického shlukování smíšených dat s nehierarchickými metodami
Author: Nulíčková, Lucie
Thesis type: Diplomová práce
Supervisor: Šulc, Zdeněk
Opponents: Horníček, Jaroslav
Thesis language: Česky
Abstract:
Tato práce se věnuje porovnání hierarchických a nehierarchických přístupů, které lze použít pro shlukování smíšených dat. V rámci práce je popsáno a porovnáno 16 různých metod, kterými jsou Gowerova vzdálenost, nedávno představené míry vzdálenosti pro hierarchické shlukování, metoda k-medoids, k-prototypes a modelový přístup ke shlukování. Tyto metody jsou použity ke shlukování vygenerovaných datasetů. Celkem je vygenerováno 972 datasetů, které se liší v několika charakteristikách, kterými jsou počet shluků, překrytí shluků, počet proměnných objektů, poměr nominálních a kvantitativních proměnných, počet kategorií nominálních proměnných a proporce shluků. Práce sleduje několik cílů. Hlavním cílem je porovnání různých přístupů pro shlukování smíšených dat při rozdílných charakteristikách datasetů. V rámci tohoto cíle je také zjišťováno, jak se mění úspěšnost jednotlivých metod při změnách těchto vlastností. Jedním z dílčích cílů práce je porovnání metrik ARI (Adjusted Rand Index) a AMI (Adjusted Mutual Information), které jsou pro měření úspěšnosti shlukování využity. Vzhledem k zaměření práce na smíšená data je dalším dílčím cílem blíže prozkoumat, zda se úspěšnost metod při změnách vlastností datasetů liší v případě rozdílných poměrů nominálních a kvantitativních proměnných. Bylo zjištěno, že mezi nejúspěšnější metody patří k-prototypes a nedávno představená modifikace Gowerovy vzdálenosti xSV. Tyto metody dosahovaly lepších výsledků oproti ostatním metodám téměř za jakýkoliv podmínek. Pro většinu modifikací Gowerovy vzdálenosti platilo, že dosahovaly lepších výsledků při vyšším zastoupením nominálních proměnných v souboru. Metriky ARI a AMI hodnotily jednotlivé výsledky téměř shodně, jejich trend se lišil v případě hodnocení metod při změnách počtu shluků a proporcí skupin.
Keywords: metody rozkladu; porovnání; hierarchické shlukování; smíšená data; modelový přístup ke shlukování; shluková analýza
Thesis title: Comparison of new approaches for hierarchical clustering of mixed data with non-hierarchical methods
Author: Nulíčková, Lucie
Thesis type: Diploma thesis
Supervisor: Šulc, Zdeněk
Opponents: Horníček, Jaroslav
Thesis language: Česky
Abstract:
This thesis compares some of the hierarchical and non-hierarchical methods which can be used for clustering of the mixed data. There are described and compared 16 methods such as Gower’s distance, recently introduced distance measures for hierarchical clustering, k-medoids, k-prototypes and model-based clustering method. These methods are used for clustering of the generated data. In total, 972 datasets have been generated. These datasets are different in various characteristics such as number of clusters, overlap of clusters, number of variables, ratio of nominal and numeric variables, number of categories of nominal variables and proportion of clusters. There are several aims of the thesis. The main objective is to compare various methods for clustering of mixed data within different characteristics of the datasets. Regarding this aim is also found, how the quality of clustering is changing with the changes of these characteristics. One of the sub-objectives is a comparation of ARI (Adjusted Rand Index) and AMI (Adjusted Mutual Information) metrics which are used to measure the clustering quality. Given the focus of the thesis on mixed data, another sub-objective is to further examine whether the success of methods within changes in characteristics is different in the case of various ratios of the nominal and numeric variables. It was found that the most successful methods are k-prototypes and xSV distance which is one of the recently introduced modifications of Gower’s distance. These methods had better results compared to other examined methods almost under any conditions. Majority of modifications of Gower's distance performed better when the ratio of nominal variables was higher. ARI a AMI metrics evaluated the results rather similarly; their evaluation trend of methods was different in case of changes in number of clusters and proportion of clusters.
Keywords: hierarchical clustering; partitioning methods; mixed data; model-based clustering; comparison; cluster analysis

Information about study

Study programme: Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 17. 10. 2024
Date of submission: 2. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: