Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze
Název práce: | Alternativní způsoby vizualizace kategoriálních dat ve shlukové analýze |
---|---|
Autor(ka) práce: | Nováková, Veronika |
Typ práce: | Diplomová práce |
Vedoucí práce: | Cibulková, Jana |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | Tato diplomová práce se zabývá možnostmi vizualizaci shlukové analýzy kategoriálních dat, jelikož zatímco možností vizualizace v případě použití kvantitativních proměnných je mnoho, v případě kategoriálních dat tyto možnosti chybí. Tato práce nabízí přehled možných přístupů k vizualizaci kategoriálních dat a shlukové analýzy obecně. Dále je v práci navržen nový postup vizualizace, který se vypořádává s problémy spojených s vizualizací kategoriálních dat a bude tak vhodným nástrojem pro grafické znázornění výsledků shlukové analýzy. Za tímto účelem jsou nejdříve popsány základní principy samotné shlukové analýzy se zaměřením na shlukování kategoriálních dat. Dále práce popisuje různé metody, které lze použít pro uspořádání kategorií a určení jejich vzdáleností. Na základě popsaných teoretických poznatků tato práce navrhuje nové postupy nazvané HCADM, HCAKL, LBCADM a LBCAKL. Tyto metody se s problémem uspořádáním kategorií na osách grafu vypořádávají použitím metod hierarchického shlukování a shlukování pomocí latentních bloků. K druhému problému, určení vzdáleností kategorií, představené metody používají míry OF, IOF, Lin nebo vzdálenost Kullback-Leibler. Účinnost metod HCADM, HCAKL, LBCADM a LBCAKL je ilustrována na dvou datových soubor a lze vidět, že grafy vzniklé představenými metodami lze využít pro vizualizaci shlukové analýzy kategoriálních dat. Výsledné grafy vedou k přehlednějšímu znázornění shluků a mohou tak být použity jako obdoba cluster scatter plotu pro kategoriální proměnné |
Klíčová slova: | vizualizace dat; uspořádání kategorií; vzdálenosti kategorií; kategoriální data; shluková analýza |
Název práce: | Alternative visualizations on categorical data in cluster analysis |
---|---|
Autor(ka) práce: | Nováková, Veronika |
Typ práce: | Diploma thesis |
Vedoucí práce: | Cibulková, Jana |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | This master’s thesis deals with proposing a methodology for visualizing cluster analysis of categorical data. While there are many visualization options for quantitative variables, these options are lacking for categorical data. This work provides an overview of possible approaches to visualizing categorical data and cluster analysis. Furthermore, a new visualization methodology is proposed in the work, which addresses issues associated with visualizing categorical data and thus will be a suitable tool for graphically representing the results of cluster analysis. To achieve this, the basic principles of cluster analysis are first described with focus on clustering categorical data. The thesis then discusses various methods that can be used to order categories and determine their distances. Based on the described theoretical knowledge, the thesis proposes new methods named HCADM, HCAKL, LBCADM, and LBCAKL. These methods address the problem of orderig categories on the graph axes by using hierarchical clustering and latent blocks clustering. For the second problem, determining distances between categories, the introduced methods use measures such as OF, IOF, Lin, or the Kullback-Leibler distance. The effectiveness of the HCADM, HCAKL, LBCADM, and LBCAKL methods is examined on two datasets, showing that the graphs generated by these methods can be utilized for visualizing cluster analysis of categorical data. The graphs lead to a better representation of clusters and can thus be used as an equivalent of a cluster scatter plot for categorical variables. |
Klíčová slova: | cluster analysis; categorical data; data visualization; ordering categories; distance of categories |
Informace o studiu
Studijní program / obor: | Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 6. 12. 2022 |
---|---|
Datum podání práce: | 28. 4. 2024 |
Datum obhajoby: | 3. 6. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/83026/podrobnosti |