Clustering methods and evaluation of their classification ability

Thesis title: Metody shlukové analýzy a hodnocení úspěšnosti jejich klasifikace
Author: Janoutová, Eva
Thesis type: Diplomová práce
Supervisor: Šulc, Zdeněk
Opponents: Cibulková, Jana
Thesis language: Česky
Abstract:
Cílem této diplomové práce je srovnání úspěšnosti vybraných metod shlukové analýzy za předpokladu známé klasifikace objektů do skupin. Tato analýza je prováděna na základě vygenerovaných kvantitativních dat. V reálném světě není často známé „pravé“ přiřazení objektů do shluků, a proto jsou v práci použita právě vygenerovaná data. Úspěšnost metod z hlediska klasifikace objektů do shluků je zkoumána na základě vybraných externích indexů. Celkově se jako nejlepší shluková metoda jeví metoda založená na smíšených modelech, z hierarchických metod se dále nejlépe umístila Wardova metoda s čtvercovou Euklidovskou vzdáleností. Dále bude podle vybraných indexů zkoumáno, zda má na úspěšnost klasifikace objektů do shluků vliv počet shluků, velikost shluku, počet proměnných či různá velikost minimální meziskupinové vzdálenosti.
Keywords: Gaussovy smíšené modely; hierarchické metody; metoda k-průměrů; shluková analýza; externí kritéria
Thesis title: Clustering methods and evaluation of their classification ability
Author: Janoutová, Eva
Thesis type: Diploma thesis
Supervisor: Šulc, Zdeněk
Opponents: Cibulková, Jana
Thesis language: Česky
Abstract:
This thesis aims to compare the ability of selected cluster analysis methods concerning classifying objects into known groups. This analysis is done by using generated quantitative data. In the real world, the “true” classification of objects into clusters is often not known. Therefore a generated type of data has been used in this thesis. The ability of the selected methods to classify objects into clusters is analysed by four external indices. Overall, the best cluster method is the Gaussian mixture model method, followed by the hierarchical Ward method with squared Euclidean distance. Additionally, according to the indices that are analysed, the number of clusters, size of the clusters, number of variables, and different minimal cluster distance affect the ability to classify objects into clusters.
Keywords: cluster analysis; hierarchical methods; k-means method; external indices; Gaussian mixture model

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 1. 3. 2019
Date of submission: 1. 12. 2019
Date of defense: 29. 1. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/68969/podrobnosti

Files for download

    Last update: