Alternative visualizations on categorical data in cluster analysis
Thesis title: | Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze |
---|---|
Author: | Kupková, Barbora |
Thesis type: | Diplomová práce |
Supervisor: | Cibulková, Jana |
Opponents: | Šulc, Zdeněk |
Thesis language: | Česky |
Abstract: | Shluková analýza je klasifikační metodou vícerozměrné statistické analýzy, která rozděluje množinu prvků, například objektů, do shluků tak, aby si prvky uvnitř těchto shluků byly navzájem co nejvíce podobné a v různých shlucích se naopak lišily. Shlukování nominálních dat nebylo dosud prozkoumáno do takové míry jako shlukování kvantitativních dat, což platí i pro jeho vizualizaci. Ta je přitom důležitým nástrojem pro analýzu a průzkum multidimenzionálních dat. Proměnné tohoto typu se vyskytují poměrně často - v marketingu, biologii, medicíně a v dalších oborech. Cílem této práce je proto identifikovat možnosti zlepšení vizualizace hierarchicky shlukovaných objektů nominálních proměnných a navrhnout nové postupy. Tohoto cíle bylo dosaženo novými návrhy na vytvoření heatmapy a cluster scatter plotu. Tyto postupy byly následně aplikovány do pragramovacího jazyka R. |
Keywords: | nominální data; kategoriální data; hierarchická shluková analýza; míry podobnosti pro nominální proměnné; vizualizace; teplotní mapa; dvoudimenzionální bodový graf |
Thesis title: | Alternative visualizations on categorical data in cluster analysis |
---|---|
Author: | Kupková, Barbora |
Thesis type: | Diploma thesis |
Supervisor: | Cibulková, Jana |
Opponents: | Šulc, Zdeněk |
Thesis language: | Česky |
Abstract: | Cluster analysis is a classification method of multidimensional data analysis. Its purpose is to group a set of elements in such a way that objects in the same group are more similar to each other than to those in other groups. Clustering on nominal data has not been explored to such an extent as clustering the quantitative data has been, although it is an important tool for the analysis and exploration of multidimensional data. Nominal variables often appear in marketing, biology, medicine, etc. This thesis aims to identify opportunities to improve the clustering visualization on nominal data and proposes new, improved procedures to create them. This goal was achieved with the proposal of two improved visualizations - a heatmap and a cluster scatter plot. The two visualizations were then implemented in the R software. |
Keywords: | hierarchical cluster analysis; cluster scatter plot; nominal data; categorical data; similarity measures for nominal data; visualization; heatmap |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 15. 11. 2020 |
---|---|
Date of submission: | 6. 12. 2021 |
Date of defense: | 3. 2. 2022 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/75160/podrobnosti |