Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze

Název práce: Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze
Autor(ka) práce: Nováková, Veronika
Typ práce: Diplomová práce
Vedoucí práce: Cibulková, Jana
Oponenti práce: Šulc, Zdeněk
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zabývá možnostmi vizualizaci shlukové analýzy kategoriálních dat, jelikož zatímco možností vizualizace v případě použití kvantitativních proměnných je mnoho, v případě kategoriálních dat tyto možnosti chybí. Tato práce nabízí přehled možných přístupů k vizualizaci kategoriálních dat a shlukové analýzy obecně. Dále je v práci navržen nový postup vizualizace, který se vypořádává s problémy spojených s vizualizací kategoriálních dat a bude tak vhodným nástrojem pro grafické znázornění výsledků shlukové analýzy. Za tímto účelem jsou nejdříve popsány základní principy samotné shlukové analýzy se zaměřením na shlukování kategoriálních dat. Dále práce popisuje různé metody, které lze použít pro uspořádání kategorií a určení jejich vzdáleností. Na základě popsaných teoretických poznatků tato práce navrhuje nové postupy nazvané HCADM, HCAKL, LBCADM a LBCAKL. Tyto metody se s problémem uspořádáním kategorií na osách grafu vypořádávají použitím metod hierarchického shlukování a shlukování pomocí latentních bloků. K druhému problému, určení vzdáleností kategorií, představené metody používají míry OF, IOF, Lin nebo vzdálenost Kullback-Leibler. Účinnost metod HCADM, HCAKL, LBCADM a LBCAKL je ilustrována na dvou datových soubor a lze vidět, že grafy vzniklé představenými metodami lze využít pro vizualizaci shlukové analýzy kategoriálních dat. Výsledné grafy vedou k přehlednějšímu znázornění shluků a mohou tak být použity jako obdoba cluster scatter plotu pro kategoriální proměnné
Klíčová slova: vizualizace dat; uspořádání kategorií; vzdálenosti kategorií; kategoriální data; shluková analýza
Název práce: Alternative visualizations on categorical data in cluster analysis
Autor(ka) práce: Nováková, Veronika
Typ práce: Diploma thesis
Vedoucí práce: Cibulková, Jana
Oponenti práce: Šulc, Zdeněk
Jazyk práce: Česky
Abstrakt:
This master’s thesis deals with proposing a methodology for visualizing cluster analysis of categorical data. While there are many visualization options for quantitative variables, these options are lacking for categorical data. This work provides an overview of possible approaches to visualizing categorical data and cluster analysis. Furthermore, a new visualization methodology is proposed in the work, which addresses issues associated with visualizing categorical data and thus will be a suitable tool for graphically representing the results of cluster analysis. To achieve this, the basic principles of cluster analysis are first described with focus on clustering categorical data. The thesis then discusses various methods that can be used to order categories and determine their distances. Based on the described theoretical knowledge, the thesis proposes new methods named HCADM, HCAKL, LBCADM, and LBCAKL. These methods address the problem of orderig categories on the graph axes by using hierarchical clustering and latent blocks clustering. For the second problem, determining distances between categories, the introduced methods use measures such as OF, IOF, Lin, or the Kullback-Leibler distance. The effectiveness of the HCADM, HCAKL, LBCADM, and LBCAKL methods is examined on two datasets, showing that the graphs generated by these methods can be utilized for visualizing cluster analysis of categorical data. The graphs lead to a better representation of clusters and can thus be used as an equivalent of a cluster scatter plot for categorical variables.
Klíčová slova: cluster analysis; categorical data; data visualization; ordering categories; distance of categories

Informace o studiu

Studijní program / obor: Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 12. 2022
Datum podání práce: 28. 4. 2024
Datum obhajoby: 3. 6. 2024
Identifikátor v systému InSIS: https://insis.vse.cz/zp/83026/podrobnosti

Soubory ke stažení

    Poslední aktualizace: