Using R software for cluster analysis
Thesis title: | Využití softwaru R pro shlukovou analýzu |
---|---|
Author: | Neubergerová, Eva |
Thesis type: | Diplomová práce |
Supervisor: | Löster, Tomáš |
Opponents: | Danko, Jakub |
Thesis language: | Česky |
Abstract: | Shluková analýza je jedním z typů vícerozměrné datové analýzy, jejíž cílem je zařazení objektů do shluků tak, aby si objekty v jednom shluku byly co nejvíce podobné a zároveň, aby shluky byly co nejvíce odlišné. Tato diplomová práce se zabývá využitím softwaru R pro shlukovou analýzu, konkrétně v prostředí RStudio. Popularita R neustále roste hlavně z důvodu jeho volné dostupnosti a flexibility. Základní instalace obsahuje nejdůležitější funkce, ostatní funkce jsou uloženy v balíčcích a je třeba je doinstalovat. Hlavním cílem práce bylo představit a porovnat dostupné balíčky a funkce, které jsou vhodné pro shlukovou analýzu, a ty pak následně aplikovat na vybrané datové soubory, které jsou také součástí R. Ty byly vybrány tak, aby jejich objekty byly reprezentovány různými typy proměnných (kvantitativní, nominální, binární). Za nejužitečnější balíčky lze považovat balíčky stats a cluster. Balíček stats je postačující pro základní metody hierarchického shlukování a metodu k-průměrů, umožňuje také výpočet matice vzdáleností pomocí nejpoužívanějších měr vzdálenosti, neobsahuje však jiné typy metrik. Balíček cluster umožňuje výpočet vzdáleností pro objekty reprezentované smíšenými proměnnými a také použití divizního a monotetického hierarchického shlukování a metod k-medoidů PAM i CLARA, u kterých lze zároveň provést standardizaci dat a výpočet matice vzdáleností. Velmi užitečný je balíček factoextra, který umožňuje výpočet podobností pomocí korelačních měr, jeho hlavní výhodou je však zejména možnost vytváření grafů typu ggplot2 pro různé kroky shlukové analýzy. Také obsahuje univerzální funkce, které umožňují urychlení celého procesu v jedné funkci, od standardizace dat po výstupní graf. Balíček fpc umožňuje výpočet metodou k-medoidů s odhadem počtu shluků, také dokáže spočítat mnoho hodnotících statistik. Pro specializované metriky vhodné pro shlukování objektů reprezentovaných nominálními proměnnými je ideální balíček nomclust. Balíčky clValid a NbClust pomáhají s výběrem vhodného počtu shluků, clValid nabízí i kritéria stability a určuje také vhodné metody, NbClust zase určuje optimální počet shluků na základě třiceti kritérií zároveň. |
Keywords: | R; RStudio; shluková analýza |
Thesis title: | Using R software for cluster analysis |
---|---|
Author: | Neubergerová, Eva |
Thesis type: | Diploma thesis |
Supervisor: | Löster, Tomáš |
Opponents: | Danko, Jakub |
Thesis language: | Česky |
Abstract: | Cluster analysis is a type of multivariate data analysis, which aims to classify objects into clusters so that the objects in one cluster are as similar as possible and at the same time, the clusters are as different as possible. This thesis deals with the use of R software for cluster analysis, specifically in the RStudio environment. The popularity of R has been steadily increasing mainly due to its free availability and flexibility. The basic installation contains the most important features, while other features are stored in packages and need to be reinstalled. The main objective of this work was to present and compare the available packages and functions that are suitable for cluster analysis, and then apply these to selected data sets that are also part of R. These datasets were chosen so that their objects are represented by different types of variables (quantitative, nominal, binary). The most useful packages are the stats and cluster packages. The stats package is sufficient for basic hierarchical clustering and k-means methods and allows the calculation of distance matrices using the most used distance measures but does not include other types of metrics. The cluster package allows the computation of distances for objects represented by mixed variables, as well as the use of divisive and monothetic hierarchical clustering and the k-medoids methods PAM and CLARA, for which data standardization and distance matrix computation can be performed simultaneously. Very useful is the factoextra package, which allows the computation of similarities using correlation measures, but its main advantage is the ability to generate ggplot2-type plots for the different steps of the cluster analysis. It also includes versatile functions that allow to speed up the whole process in one function, from data standardization to output graph. The fpc package allows the computation of the k-medoids method with cluster count estimation and can also compute many evaluation statistics. For specialized metrics suitable for clustering objects represented by nominal variables, the nomclust package is ideal. The clValid and NbClust packages help to select the optimal number of clusters, clValid also provides stability criteria and determines optimal methods, while NbClust determines the optimal number of clusters based on many criteria simultaneously. |
Keywords: | R; cluster analysis; RStudio |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 23. 9. 2019 |
---|---|
Date of submission: | 2. 5. 2022 |
Date of defense: | 6. 6. 2022 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/70685/podrobnosti |