Using R software for cluster analysis

Thesis title: Využití softwaru R pro shlukovou analýzu
Author: Neubergerová, Eva
Thesis type: Diplomová práce
Supervisor: Löster, Tomáš
Opponents: Danko, Jakub
Thesis language: Česky
Abstract:
Shluková analýza je jedním z typů vícerozměrné datové analýzy, jejíž cílem je zařazení objektů do shluků tak, aby si objekty v jednom shluku byly co nejvíce podobné a zároveň, aby shluky byly co nejvíce odlišné. Tato diplomová práce se zabývá využitím softwaru R pro shlukovou analýzu, konkrétně v prostředí RStudio. Popularita R neustále roste hlavně z důvodu jeho volné dostupnosti a flexibility. Základní instalace obsahuje nejdůležitější funkce, ostatní funkce jsou uloženy v balíčcích a je třeba je doinstalovat. Hlavním cílem práce bylo představit a porovnat dostupné balíčky a funkce, které jsou vhodné pro shlukovou analýzu, a ty pak následně aplikovat na vybrané datové soubory, které jsou také součástí R. Ty byly vybrány tak, aby jejich objekty byly reprezentovány různými typy proměnných (kvantitativní, nominální, binární). Za nejužitečnější balíčky lze považovat balíčky stats a cluster. Balíček stats je postačující pro základní metody hierarchického shlukování a metodu k-průměrů, umožňuje také výpočet matice vzdáleností pomocí nejpoužívanějších měr vzdálenosti, neobsahuje však jiné typy metrik. Balíček cluster umožňuje výpočet vzdáleností pro objekty reprezentované smíšenými proměnnými a také použití divizního a monotetického hierarchického shlukování a metod k-medoidů PAM i CLARA, u kterých lze zároveň provést standardizaci dat a výpočet matice vzdáleností. Velmi užitečný je balíček factoextra, který umožňuje výpočet podobností pomocí korelačních měr, jeho hlavní výhodou je však zejména možnost vytváření grafů typu ggplot2 pro různé kroky shlukové analýzy. Také obsahuje univerzální funkce, které umožňují urychlení celého procesu v jedné funkci, od standardizace dat po výstupní graf. Balíček fpc umožňuje výpočet metodou k-medoidů s odhadem počtu shluků, také dokáže spočítat mnoho hodnotících statistik. Pro specializované metriky vhodné pro shlukování objektů reprezentovaných nominálními proměnnými je ideální balíček nomclust. Balíčky clValid a NbClust pomáhají s výběrem vhodného počtu shluků, clValid nabízí i kritéria stability a určuje také vhodné metody, NbClust zase určuje optimální počet shluků na základě třiceti kritérií zároveň.
Keywords: R; RStudio; shluková analýza
Thesis title: Using R software for cluster analysis
Author: Neubergerová, Eva
Thesis type: Diploma thesis
Supervisor: Löster, Tomáš
Opponents: Danko, Jakub
Thesis language: Česky
Abstract:
Cluster analysis is a type of multivariate data analysis, which aims to classify objects into clusters so that the objects in one cluster are as similar as possible and at the same time, the clusters are as different as possible. This thesis deals with the use of R software for cluster analysis, specifically in the RStudio environment. The popularity of R has been steadily increasing mainly due to its free availability and flexibility. The basic installation contains the most important features, while other features are stored in packages and need to be reinstalled. The main objective of this work was to present and compare the available packages and functions that are suitable for cluster analysis, and then apply these to selected data sets that are also part of R. These datasets were chosen so that their objects are represented by different types of variables (quantitative, nominal, binary). The most useful packages are the stats and cluster packages. The stats package is sufficient for basic hierarchical clustering and k-means methods and allows the calculation of distance matrices using the most used distance measures but does not include other types of metrics. The cluster package allows the computation of distances for objects represented by mixed variables, as well as the use of divisive and monothetic hierarchical clustering and the k-medoids methods PAM and CLARA, for which data standardization and distance matrix computation can be performed simultaneously. Very useful is the factoextra package, which allows the computation of similarities using correlation measures, but its main advantage is the ability to generate ggplot2-type plots for the different steps of the cluster analysis. It also includes versatile functions that allow to speed up the whole process in one function, from data standardization to output graph. The fpc package allows the computation of the k-medoids method with cluster count estimation and can also compute many evaluation statistics. For specialized metrics suitable for clustering objects represented by nominal variables, the nomclust package is ideal. The clValid and NbClust packages help to select the optimal number of clusters, clValid also provides stability criteria and determines optimal methods, while NbClust determines the optimal number of clusters based on many criteria simultaneously.
Keywords: R; cluster analysis; RStudio

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 23. 9. 2019
Date of submission: 2. 5. 2022
Date of defense: 6. 6. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/70685/podrobnosti

Files for download

    Last update: