Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze
Název práce: | Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze |
---|---|
Autor(ka) práce: | Kupková, Barbora |
Typ práce: | Diplomová práce |
Vedoucí práce: | Cibulková, Jana |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | Shluková analýza je klasifikační metodou vícerozměrné statistické analýzy, která rozděluje množinu prvků, například objektů, do shluků tak, aby si prvky uvnitř těchto shluků byly navzájem co nejvíce podobné a v různých shlucích se naopak lišily. Shlukování nominálních dat nebylo dosud prozkoumáno do takové míry jako shlukování kvantitativních dat, což platí i pro jeho vizualizaci. Ta je přitom důležitým nástrojem pro analýzu a průzkum multidimenzionálních dat. Proměnné tohoto typu se vyskytují poměrně často - v marketingu, biologii, medicíně a v dalších oborech. Cílem této práce je proto identifikovat možnosti zlepšení vizualizace hierarchicky shlukovaných objektů nominálních proměnných a navrhnout nové postupy. Tohoto cíle bylo dosaženo novými návrhy na vytvoření heatmapy a cluster scatter plotu. Tyto postupy byly následně aplikovány do pragramovacího jazyka R. |
Klíčová slova: | nominální data; kategoriální data; hierarchická shluková analýza; míry podobnosti pro nominální proměnné; vizualizace; teplotní mapa; dvoudimenzionální bodový graf |
Název práce: | Alternative visualizations on categorical data in cluster analysis |
---|---|
Autor(ka) práce: | Kupková, Barbora |
Typ práce: | Diploma thesis |
Vedoucí práce: | Cibulková, Jana |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | Cluster analysis is a classification method of multidimensional data analysis. Its purpose is to group a set of elements in such a way that objects in the same group are more similar to each other than to those in other groups. Clustering on nominal data has not been explored to such an extent as clustering the quantitative data has been, although it is an important tool for the analysis and exploration of multidimensional data. Nominal variables often appear in marketing, biology, medicine, etc. This thesis aims to identify opportunities to improve the clustering visualization on nominal data and proposes new, improved procedures to create them. This goal was achieved with the proposal of two improved visualizations - a heatmap and a cluster scatter plot. The two visualizations were then implemented in the R software. |
Klíčová slova: | hierarchical cluster analysis; cluster scatter plot; nominal data; categorical data; similarity measures for nominal data; visualization; heatmap |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 15. 11. 2020 |
---|---|
Datum podání práce: | 6. 12. 2021 |
Datum obhajoby: | 3. 2. 2022 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/75160/podrobnosti |