Comparison of different methods of categorical data cluster analysis

Thesis title: Porovnání různých metod shlukové analýzy kategoriálních dat
Author: Hamralová, Zuzana
Thesis type: Diplomová práce
Supervisor: Šulc, Zdeněk
Opponents: Löster, Tomáš
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá metodami shlukové analýzy kategoriálních dat. Řada metod shlukování kategoriálních dat není řádně prozkoumaná, protože se mnoho z nich stále vyvíjí. Cílem práce je představit, prozkoumat a porovnat vybrané tři metody shlukování kategoriálních dat, z nichž jedna je hierarchické shlukování pomocí Gowerova koeficientu, jakožto představitel klasických metod, a další dvě, algoritmy ROCK a COOLCAT, jsou představiteli nových přístupů. Analytická část práce se zabývá porovnáním metod u sedmi reálných datových souborů, které obsahují jednu hlavní třídicí proměnnou. Z výsledků vyplývá, že nejpřesnější zařazení kategorií třídicí proměnné do vytvořených shluků a nejkvalitnější shluky má u většiny datových souborů shlukování pomocí algoritmu ROCK po odebrání nezařazených pozorování, která algoritmus považoval za odlehlá. Přesto tato metoda není vždy optimální, protože při ní často dochází ke ztrátě informací o části pozorování. Pokud je požadováno klasifikovat všechna pozorování, nejlepší shluky byly u většiny datových souborů vytvořeny pomocí algoritmu COOLCAT.
Keywords: COOLCAT; ROCK; kategoriální data; hierarchické shlukování; shluková analýza
Thesis title: Comparison of different methods of categorical data cluster analysis
Author: Hamralová, Zuzana
Thesis type: Diploma thesis
Supervisor: Šulc, Zdeněk
Opponents: Löster, Tomáš
Thesis language: Česky
Abstract:
This diploma thesis deals with methods of categorical data cluster analysis. Many categorical data clustering methods have not been properly researched because these methods are still developing. The aim of this work is to present, explore and compare three selected methods of categorical data clustering, one of them is hierarchical clustering using the Gower coefficient as a representative of classical methods, and the other two, ROCK and COOLCAT algorithms, as representatives of new approaches. The analytical part of the thesis deals with the comparison of methods on seven real data sets, which contain one main class variable. The results show that the most accurate classification of the categories of the class variable into the created clusters and the highest quality clusters of most data sets has clustering using the ROCK algorithm after removing unclassified observations, which the algorithm considered as outliers. Nevertheless, this method is not always optimal, because it often loses information about part of the observations. If it is required to classify all observations, the best clusters were created for most data sets using the COOLCAT algorithm.
Keywords: cluster analysis; categorical data; hierarchical clustering; ROCK; COOLCAT

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 10. 11. 2020
Date of submission: 23. 6. 2021
Date of defense: 24. 8. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/75070/podrobnosti

Files for download

    Last update: