Alternative visualizations on categorical data in cluster analysis
Thesis title: | Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze |
---|---|
Author: | Nováková, Veronika |
Thesis type: | Diplomová práce |
Supervisor: | Cibulková, Jana |
Opponents: | Šulc, Zdeněk |
Thesis language: | Česky |
Abstract: | Tato diplomová práce se zabývá možnostmi vizualizaci shlukové analýzy kategoriálních dat, jelikož zatímco možností vizualizace v případě použití kvantitativních proměnných je mnoho, v případě kategoriálních dat tyto možnosti chybí. Tato práce nabízí přehled možných přístupů k vizualizaci kategoriálních dat a shlukové analýzy obecně. Dále je v práci navržen nový postup vizualizace, který se vypořádává s problémy spojených s vizualizací kategoriálních dat a bude tak vhodným nástrojem pro grafické znázornění výsledků shlukové analýzy. Za tímto účelem jsou nejdříve popsány základní principy samotné shlukové analýzy se zaměřením na shlukování kategoriálních dat. Dále práce popisuje různé metody, které lze použít pro uspořádání kategorií a určení jejich vzdáleností. Na základě popsaných teoretických poznatků tato práce navrhuje nové postupy nazvané HCADM, HCAKL, LBCADM a LBCAKL. Tyto metody se s problémem uspořádáním kategorií na osách grafu vypořádávají použitím metod hierarchického shlukování a shlukování pomocí latentních bloků. K druhému problému, určení vzdáleností kategorií, představené metody používají míry OF, IOF, Lin nebo vzdálenost Kullback-Leibler. Účinnost metod HCADM, HCAKL, LBCADM a LBCAKL je ilustrována na dvou datových soubor a lze vidět, že grafy vzniklé představenými metodami lze využít pro vizualizaci shlukové analýzy kategoriálních dat. Výsledné grafy vedou k přehlednějšímu znázornění shluků a mohou tak být použity jako obdoba cluster scatter plotu pro kategoriální proměnné |
Keywords: | vizualizace dat; uspořádání kategorií; vzdálenosti kategorií; kategoriální data; shluková analýza |
Thesis title: | Alternative visualizations on categorical data in cluster analysis |
---|---|
Author: | Nováková, Veronika |
Thesis type: | Diploma thesis |
Supervisor: | Cibulková, Jana |
Opponents: | Šulc, Zdeněk |
Thesis language: | Česky |
Abstract: | This master’s thesis deals with proposing a methodology for visualizing cluster analysis of categorical data. While there are many visualization options for quantitative variables, these options are lacking for categorical data. This work provides an overview of possible approaches to visualizing categorical data and cluster analysis. Furthermore, a new visualization methodology is proposed in the work, which addresses issues associated with visualizing categorical data and thus will be a suitable tool for graphically representing the results of cluster analysis. To achieve this, the basic principles of cluster analysis are first described with focus on clustering categorical data. The thesis then discusses various methods that can be used to order categories and determine their distances. Based on the described theoretical knowledge, the thesis proposes new methods named HCADM, HCAKL, LBCADM, and LBCAKL. These methods address the problem of orderig categories on the graph axes by using hierarchical clustering and latent blocks clustering. For the second problem, determining distances between categories, the introduced methods use measures such as OF, IOF, Lin, or the Kullback-Leibler distance. The effectiveness of the HCADM, HCAKL, LBCADM, and LBCAKL methods is examined on two datasets, showing that the graphs generated by these methods can be utilized for visualizing cluster analysis of categorical data. The graphs lead to a better representation of clusters and can thus be used as an equivalent of a cluster scatter plot for categorical variables. |
Keywords: | cluster analysis; categorical data; data visualization; ordering categories; distance of categories |
Information about study
Study programme: | Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 6. 12. 2022 |
---|---|
Date of submission: | 28. 4. 2024 |
Date of defense: | 3. 6. 2024 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/83026/podrobnosti |