Selected multidimensional methods for categorical data analysis
Thesis title: | Vybrané vícerozměrné metody pro analýzu kategoriálních dat |
---|---|
Author: | Pirohová, Eva |
Thesis type: | Diplomová práce |
Supervisor: | Bašta, Milan |
Opponents: | Pecáková, Iva |
Thesis language: | Česky |
Abstract: | Diplomová práce je zaměřena na představení vybraných vícerozměrných metod pro analýzu kategoriálních dat. Důraz je kladen především na hierarchické shlukovací algoritmy a korespondenční analýzu, která je vhodným vizualizačním nástrojem asociací mezi proměnnými a jejími kategoriemi. Metody jsou doprovázené průzkumovou analýzou dat. Pro demonstraci metod je v práci využit reálný datový soubor, na kterém jsou vybrané postupy a metody ilustrovány a v závěru jsou shrnuty důležité poznatky o vlastnostech datového souboru, ke kterým se na základě analýzy dospělo. Uvedené metody jsou zpracovány pomocí softwaru R, a to ze dvou hlavních důvodů. V softwaru R je volně dostupný balíček nově navržených měr podobností pro hierarchické shlukování nominálních dat, přičemž tyto možnosti prozatím nejsou implementovány v komerčních softwarech. Druhým hlavním důvodem je představení možností aplikace korespondenční analýzy ve volně dostupném softwaru hojně využívaným nejen v akademické sféře, ale i v praxi. Cílem diplomové práci je tak představení těchto metod a možností jejich aplikace v softwaru R. Pomocí těchto metod se práce snaží o vysvětlení souvislostí mezi volenou politickou stranou a ostatními aspekty. |
Keywords: | Kategoriální proměnné; kontingenční tabulka; korespondenční analýza; míry podobností; shluková analýza |
Thesis title: | Selected multidimensional methods for categorical data analysis |
---|---|
Author: | Pirohová, Eva |
Thesis type: | Diploma thesis |
Supervisor: | Bašta, Milan |
Opponents: | Pecáková, Iva |
Thesis language: | Česky |
Abstract: | The diploma thesis is focused on the introduction of selected multidimensional methods for the analysis of categorical data. Emphasis is placed primarily on hierarchical clustering algorithms and correspondence analysis, which is a suitable visualization tool for associations between variables and their categories. The methods are accompanied by exploratory data analysis. To demonstrate the methods, a real data set is used in the work, on which selected procedures and methods are illustrated. In the end important findings about the features of the data set, which were reached based on the analysis, are summarized. These methods are processed using R software, for two main reasons. The R software includes a freely available package of newly designed similarity measures for hierarchical clustering of nominal data, and these options are not yet implemented in commercial software. The second main reason is the introduction of the possibilities of application of correspondence analysis in freely available software widely used not only in the academic sphere, but also in practice. The aim of the diploma thesis is to introduce these methods and their application in R software. Using these methods, the work seeks to explain the relationship between the elected political party and other aspects. |
Keywords: | Categorical variables; cluster analysis; contingency table; correspondence analysis; similarity measures |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 10. 10. 2019 |
---|---|
Date of submission: | 4. 5. 2020 |
Date of defense: | 9. 6. 2020 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/71220/podrobnosti |