Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze

Název práce: Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze
Autor(ka) práce: Kupková, Barbora
Typ práce: Diplomová práce
Vedoucí práce: Cibulková, Jana
Oponenti práce: Šulc, Zdeněk
Jazyk práce: Česky
Abstrakt:
Shluková analýza je klasifikační metodou vícerozměrné statistické analýzy, která rozděluje množinu prvků, například objektů, do shluků tak, aby si prvky uvnitř těchto shluků byly navzájem co nejvíce podobné a v různých shlucích se naopak lišily. Shlukování nominálních dat nebylo dosud prozkoumáno do takové míry jako shlukování kvantitativních dat, což platí i pro jeho vizualizaci. Ta je přitom důležitým nástrojem pro analýzu a průzkum multidimenzionálních dat. Proměnné tohoto typu se vyskytují poměrně často - v marketingu, biologii, medicíně a v dalších oborech. Cílem této práce je proto identifikovat možnosti zlepšení vizualizace hierarchicky shlukovaných objektů nominálních proměnných a navrhnout nové postupy. Tohoto cíle bylo dosaženo novými návrhy na vytvoření heatmapy a cluster scatter plotu. Tyto postupy byly následně aplikovány do pragramovacího jazyka R.
Klíčová slova: nominální data; kategoriální data; hierarchická shluková analýza; míry podobnosti pro nominální proměnné; vizualizace; teplotní mapa; dvoudimenzionální bodový graf
Název práce: Alternative visualizations on categorical data in cluster analysis
Autor(ka) práce: Kupková, Barbora
Typ práce: Diploma thesis
Vedoucí práce: Cibulková, Jana
Oponenti práce: Šulc, Zdeněk
Jazyk práce: Česky
Abstrakt:
Cluster analysis is a classification method of multidimensional data analysis. Its purpose is to group a set of elements in such a way that objects in the same group are more similar to each other than to those in other groups. Clustering on nominal data has not been explored to such an extent as clustering the quantitative data has been, although it is an important tool for the analysis and exploration of multidimensional data. Nominal variables often appear in marketing, biology, medicine, etc. This thesis aims to identify opportunities to improve the clustering visualization on nominal data and proposes new, improved procedures to create them. This goal was achieved with the proposal of two improved visualizations - a heatmap and a cluster scatter plot. The two visualizations were then implemented in the R software.
Klíčová slova: hierarchical cluster analysis; cluster scatter plot; nominal data; categorical data; similarity measures for nominal data; visualization; heatmap

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 15. 11. 2020
Datum podání práce: 6. 12. 2021
Datum obhajoby: 3. 2. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/75160/podrobnosti

Soubory ke stažení

    Poslední aktualizace: