Využití softwaru R pro shlukovou analýzu

Název práce: Využití softwaru R pro shlukovou analýzu
Autor(ka) práce: Neubergerová, Eva
Typ práce: Diplomová práce
Vedoucí práce: Löster, Tomáš
Oponenti práce: Danko, Jakub
Jazyk práce: Česky
Abstrakt:
Shluková analýza je jedním z typů vícerozměrné datové analýzy, jejíž cílem je zařazení objektů do shluků tak, aby si objekty v jednom shluku byly co nejvíce podobné a zároveň, aby shluky byly co nejvíce odlišné. Tato diplomová práce se zabývá využitím softwaru R pro shlukovou analýzu, konkrétně v prostředí RStudio. Popularita R neustále roste hlavně z důvodu jeho volné dostupnosti a flexibility. Základní instalace obsahuje nejdůležitější funkce, ostatní funkce jsou uloženy v balíčcích a je třeba je doinstalovat. Hlavním cílem práce bylo představit a porovnat dostupné balíčky a funkce, které jsou vhodné pro shlukovou analýzu, a ty pak následně aplikovat na vybrané datové soubory, které jsou také součástí R. Ty byly vybrány tak, aby jejich objekty byly reprezentovány různými typy proměnných (kvantitativní, nominální, binární). Za nejužitečnější balíčky lze považovat balíčky stats a cluster. Balíček stats je postačující pro základní metody hierarchického shlukování a metodu k-průměrů, umožňuje také výpočet matice vzdáleností pomocí nejpoužívanějších měr vzdálenosti, neobsahuje však jiné typy metrik. Balíček cluster umožňuje výpočet vzdáleností pro objekty reprezentované smíšenými proměnnými a také použití divizního a monotetického hierarchického shlukování a metod k-medoidů PAM i CLARA, u kterých lze zároveň provést standardizaci dat a výpočet matice vzdáleností. Velmi užitečný je balíček factoextra, který umožňuje výpočet podobností pomocí korelačních měr, jeho hlavní výhodou je však zejména možnost vytváření grafů typu ggplot2 pro různé kroky shlukové analýzy. Také obsahuje univerzální funkce, které umožňují urychlení celého procesu v jedné funkci, od standardizace dat po výstupní graf. Balíček fpc umožňuje výpočet metodou k-medoidů s odhadem počtu shluků, také dokáže spočítat mnoho hodnotících statistik. Pro specializované metriky vhodné pro shlukování objektů reprezentovaných nominálními proměnnými je ideální balíček nomclust. Balíčky clValid a NbClust pomáhají s výběrem vhodného počtu shluků, clValid nabízí i kritéria stability a určuje také vhodné metody, NbClust zase určuje optimální počet shluků na základě třiceti kritérií zároveň.
Klíčová slova: R; RStudio; shluková analýza
Název práce: Using R software for cluster analysis
Autor(ka) práce: Neubergerová, Eva
Typ práce: Diploma thesis
Vedoucí práce: Löster, Tomáš
Oponenti práce: Danko, Jakub
Jazyk práce: Česky
Abstrakt:
Cluster analysis is a type of multivariate data analysis, which aims to classify objects into clusters so that the objects in one cluster are as similar as possible and at the same time, the clusters are as different as possible. This thesis deals with the use of R software for cluster analysis, specifically in the RStudio environment. The popularity of R has been steadily increasing mainly due to its free availability and flexibility. The basic installation contains the most important features, while other features are stored in packages and need to be reinstalled. The main objective of this work was to present and compare the available packages and functions that are suitable for cluster analysis, and then apply these to selected data sets that are also part of R. These datasets were chosen so that their objects are represented by different types of variables (quantitative, nominal, binary). The most useful packages are the stats and cluster packages. The stats package is sufficient for basic hierarchical clustering and k-means methods and allows the calculation of distance matrices using the most used distance measures but does not include other types of metrics. The cluster package allows the computation of distances for objects represented by mixed variables, as well as the use of divisive and monothetic hierarchical clustering and the k-medoids methods PAM and CLARA, for which data standardization and distance matrix computation can be performed simultaneously. Very useful is the factoextra package, which allows the computation of similarities using correlation measures, but its main advantage is the ability to generate ggplot2-type plots for the different steps of the cluster analysis. It also includes versatile functions that allow to speed up the whole process in one function, from data standardization to output graph. The fpc package allows the computation of the k-medoids method with cluster count estimation and can also compute many evaluation statistics. For specialized metrics suitable for clustering objects represented by nominal variables, the nomclust package is ideal. The clValid and NbClust packages help to select the optimal number of clusters, clValid also provides stability criteria and determines optimal methods, while NbClust determines the optimal number of clusters based on many criteria simultaneously.
Klíčová slova: R; cluster analysis; RStudio

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 23. 9. 2019
Datum podání práce: 2. 5. 2022
Datum obhajoby: 6. 6. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/70685/podrobnosti

Soubory ke stažení

    Poslední aktualizace: