Alternative visualizations on categorical data in cluster analysis

Thesis title: Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze
Author: Kupková, Barbora
Thesis type: Diplomová práce
Supervisor: Cibulková, Jana
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
Shluková analýza je klasifikační metodou vícerozměrné statistické analýzy, která rozděluje množinu prvků, například objektů, do shluků tak, aby si prvky uvnitř těchto shluků byly navzájem co nejvíce podobné a v různých shlucích se naopak lišily. Shlukování nominálních dat nebylo dosud prozkoumáno do takové míry jako shlukování kvantitativních dat, což platí i pro jeho vizualizaci. Ta je přitom důležitým nástrojem pro analýzu a průzkum multidimenzionálních dat. Proměnné tohoto typu se vyskytují poměrně často - v marketingu, biologii, medicíně a v dalších oborech. Cílem této práce je proto identifikovat možnosti zlepšení vizualizace hierarchicky shlukovaných objektů nominálních proměnných a navrhnout nové postupy. Tohoto cíle bylo dosaženo novými návrhy na vytvoření heatmapy a cluster scatter plotu. Tyto postupy byly následně aplikovány do pragramovacího jazyka R.
Keywords: nominální data; kategoriální data; hierarchická shluková analýza; míry podobnosti pro nominální proměnné; vizualizace; teplotní mapa; dvoudimenzionální bodový graf
Thesis title: Alternative visualizations on categorical data in cluster analysis
Author: Kupková, Barbora
Thesis type: Diploma thesis
Supervisor: Cibulková, Jana
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
Cluster analysis is a classification method of multidimensional data analysis. Its purpose is to group a set of elements in such a way that objects in the same group are more similar to each other than to those in other groups. Clustering on nominal data has not been explored to such an extent as clustering the quantitative data has been, although it is an important tool for the analysis and exploration of multidimensional data. Nominal variables often appear in marketing, biology, medicine, etc. This thesis aims to identify opportunities to improve the clustering visualization on nominal data and proposes new, improved procedures to create them. This goal was achieved with the proposal of two improved visualizations - a heatmap and a cluster scatter plot. The two visualizations were then implemented in the R software.
Keywords: hierarchical cluster analysis; cluster scatter plot; nominal data; categorical data; similarity measures for nominal data; visualization; heatmap

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 15. 11. 2020
Date of submission: 6. 12. 2021
Date of defense: 3. 2. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/75160/podrobnosti

Files for download

    Last update: