Comparison of different methods of categorical data cluster analysis
Thesis title: | Porovnání různých metod shlukové analýzy kategoriálních dat |
---|---|
Author: | Hamralová, Zuzana |
Thesis type: | Diplomová práce |
Supervisor: | Šulc, Zdeněk |
Opponents: | Löster, Tomáš |
Thesis language: | Česky |
Abstract: | Tato diplomová práce se zabývá metodami shlukové analýzy kategoriálních dat. Řada metod shlukování kategoriálních dat není řádně prozkoumaná, protože se mnoho z nich stále vyvíjí. Cílem práce je představit, prozkoumat a porovnat vybrané tři metody shlukování kategoriálních dat, z nichž jedna je hierarchické shlukování pomocí Gowerova koeficientu, jakožto představitel klasických metod, a další dvě, algoritmy ROCK a COOLCAT, jsou představiteli nových přístupů. Analytická část práce se zabývá porovnáním metod u sedmi reálných datových souborů, které obsahují jednu hlavní třídicí proměnnou. Z výsledků vyplývá, že nejpřesnější zařazení kategorií třídicí proměnné do vytvořených shluků a nejkvalitnější shluky má u většiny datových souborů shlukování pomocí algoritmu ROCK po odebrání nezařazených pozorování, která algoritmus považoval za odlehlá. Přesto tato metoda není vždy optimální, protože při ní často dochází ke ztrátě informací o části pozorování. Pokud je požadováno klasifikovat všechna pozorování, nejlepší shluky byly u většiny datových souborů vytvořeny pomocí algoritmu COOLCAT. |
Keywords: | COOLCAT; ROCK; kategoriální data; hierarchické shlukování; shluková analýza |
Thesis title: | Comparison of different methods of categorical data cluster analysis |
---|---|
Author: | Hamralová, Zuzana |
Thesis type: | Diploma thesis |
Supervisor: | Šulc, Zdeněk |
Opponents: | Löster, Tomáš |
Thesis language: | Česky |
Abstract: | This diploma thesis deals with methods of categorical data cluster analysis. Many categorical data clustering methods have not been properly researched because these methods are still developing. The aim of this work is to present, explore and compare three selected methods of categorical data clustering, one of them is hierarchical clustering using the Gower coefficient as a representative of classical methods, and the other two, ROCK and COOLCAT algorithms, as representatives of new approaches. The analytical part of the thesis deals with the comparison of methods on seven real data sets, which contain one main class variable. The results show that the most accurate classification of the categories of the class variable into the created clusters and the highest quality clusters of most data sets has clustering using the ROCK algorithm after removing unclassified observations, which the algorithm considered as outliers. Nevertheless, this method is not always optimal, because it often loses information about part of the observations. If it is required to classify all observations, the best clusters were created for most data sets using the COOLCAT algorithm. |
Keywords: | cluster analysis; categorical data; hierarchical clustering; ROCK; COOLCAT |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 10. 11. 2020 |
---|---|
Date of submission: | 23. 6. 2021 |
Date of defense: | 24. 8. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/75070/podrobnosti |