Selected multidimensional methods for categorical data analysis

Thesis title: Vybrané vícerozměrné metody pro analýzu kategoriálních dat
Author: Pirohová, Eva
Thesis type: Diplomová práce
Supervisor: Bašta, Milan
Opponents: Pecáková, Iva
Thesis language: Česky
Abstract:
Diplomová práce je zaměřena na představení vybraných vícerozměrných metod pro analýzu kategoriálních dat. Důraz je kladen především na hierarchické shlukovací algoritmy a korespondenční analýzu, která je vhodným vizualizačním nástrojem asociací mezi proměnnými a jejími kategoriemi. Metody jsou doprovázené průzkumovou analýzou dat. Pro demonstraci metod je v práci využit reálný datový soubor, na kterém jsou vybrané postupy a metody ilustrovány a v závěru jsou shrnuty důležité poznatky o vlastnostech datového souboru, ke kterým se na základě analýzy dospělo. Uvedené metody jsou zpracovány pomocí softwaru R, a to ze dvou hlavních důvodů. V softwaru R je volně dostupný balíček nově navržených měr podobností pro hierarchické shlukování nominálních dat, přičemž tyto možnosti prozatím nejsou implementovány v komerčních softwarech. Druhým hlavním důvodem je představení možností aplikace korespondenční analýzy ve volně dostupném softwaru hojně využívaným nejen v akademické sféře, ale i v praxi. Cílem diplomové práci je tak představení těchto metod a možností jejich aplikace v softwaru R. Pomocí těchto metod se práce snaží o vysvětlení souvislostí mezi volenou politickou stranou a ostatními aspekty.
Keywords: Kategoriální proměnné; kontingenční tabulka; korespondenční analýza; míry podobností; shluková analýza
Thesis title: Selected multidimensional methods for categorical data analysis
Author: Pirohová, Eva
Thesis type: Diploma thesis
Supervisor: Bašta, Milan
Opponents: Pecáková, Iva
Thesis language: Česky
Abstract:
The diploma thesis is focused on the introduction of selected multidimensional methods for the analysis of categorical data. Emphasis is placed primarily on hierarchical clustering algorithms and correspondence analysis, which is a suitable visualization tool for associations between variables and their categories. The methods are accompanied by exploratory data analysis. To demonstrate the methods, a real data set is used in the work, on which selected procedures and methods are illustrated. In the end important findings about the features of the data set, which were reached based on the analysis, are summarized. These methods are processed using R software, for two main reasons. The R software includes a freely available package of newly designed similarity measures for hierarchical clustering of nominal data, and these options are not yet implemented in commercial software. The second main reason is the introduction of the possibilities of application of correspondence analysis in freely available software widely used not only in the academic sphere, but also in practice. The aim of the diploma thesis is to introduce these methods and their application in R software. Using these methods, the work seeks to explain the relationship between the elected political party and other aspects.
Keywords: Categorical variables; cluster analysis; contingency table; correspondence analysis; similarity measures

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 10. 10. 2019
Date of submission: 4. 5. 2020
Date of defense: 9. 6. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/71220/podrobnosti

Files for download

    Last update: