Alternative visualizations on categorical data in cluster analysis

Thesis title: Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze
Author: Nováková, Veronika
Thesis type: Diplomová práce
Supervisor: Cibulková, Jana
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá možnostmi vizualizaci shlukové analýzy kategoriálních dat, jelikož zatímco možností vizualizace v případě použití kvantitativních proměnných je mnoho, v případě kategoriálních dat tyto možnosti chybí. Tato práce nabízí přehled možných přístupů k vizualizaci kategoriálních dat a shlukové analýzy obecně. Dále je v práci navržen nový postup vizualizace, který se vypořádává s problémy spojených s vizualizací kategoriálních dat a bude tak vhodným nástrojem pro grafické znázornění výsledků shlukové analýzy. Za tímto účelem jsou nejdříve popsány základní principy samotné shlukové analýzy se zaměřením na shlukování kategoriálních dat. Dále práce popisuje různé metody, které lze použít pro uspořádání kategorií a určení jejich vzdáleností. Na základě popsaných teoretických poznatků tato práce navrhuje nové postupy nazvané HCADM, HCAKL, LBCADM a LBCAKL. Tyto metody se s problémem uspořádáním kategorií na osách grafu vypořádávají použitím metod hierarchického shlukování a shlukování pomocí latentních bloků. K druhému problému, určení vzdáleností kategorií, představené metody používají míry OF, IOF, Lin nebo vzdálenost Kullback-Leibler. Účinnost metod HCADM, HCAKL, LBCADM a LBCAKL je ilustrována na dvou datových soubor a lze vidět, že grafy vzniklé představenými metodami lze využít pro vizualizaci shlukové analýzy kategoriálních dat. Výsledné grafy vedou k přehlednějšímu znázornění shluků a mohou tak být použity jako obdoba cluster scatter plotu pro kategoriální proměnné
Keywords: vizualizace dat; uspořádání kategorií; vzdálenosti kategorií; kategoriální data; shluková analýza
Thesis title: Alternative visualizations on categorical data in cluster analysis
Author: Nováková, Veronika
Thesis type: Diploma thesis
Supervisor: Cibulková, Jana
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
This master’s thesis deals with proposing a methodology for visualizing cluster analysis of categorical data. While there are many visualization options for quantitative variables, these options are lacking for categorical data. This work provides an overview of possible approaches to visualizing categorical data and cluster analysis. Furthermore, a new visualization methodology is proposed in the work, which addresses issues associated with visualizing categorical data and thus will be a suitable tool for graphically representing the results of cluster analysis. To achieve this, the basic principles of cluster analysis are first described with focus on clustering categorical data. The thesis then discusses various methods that can be used to order categories and determine their distances. Based on the described theoretical knowledge, the thesis proposes new methods named HCADM, HCAKL, LBCADM, and LBCAKL. These methods address the problem of orderig categories on the graph axes by using hierarchical clustering and latent blocks clustering. For the second problem, determining distances between categories, the introduced methods use measures such as OF, IOF, Lin, or the Kullback-Leibler distance. The effectiveness of the HCADM, HCAKL, LBCADM, and LBCAKL methods is examined on two datasets, showing that the graphs generated by these methods can be utilized for visualizing cluster analysis of categorical data. The graphs lead to a better representation of clusters and can thus be used as an equivalent of a cluster scatter plot for categorical variables.
Keywords: cluster analysis; categorical data; data visualization; ordering categories; distance of categories

Information about study

Study programme: Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 6. 12. 2022
Date of submission: 28. 4. 2024
Date of defense: 3. 6. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/83026/podrobnosti

Files for download

    Last update: