Metody shlukové analýzy a hodnocení úspěšnosti jejich klasifikace
Název práce: | Metody shlukové analýzy a hodnocení úspěšnosti jejich klasifikace |
---|---|
Autor(ka) práce: | Janoutová, Eva |
Typ práce: | Diplomová práce |
Vedoucí práce: | Šulc, Zdeněk |
Oponenti práce: | Cibulková, Jana |
Jazyk práce: | Česky |
Abstrakt: | Cílem této diplomové práce je srovnání úspěšnosti vybraných metod shlukové analýzy za předpokladu známé klasifikace objektů do skupin. Tato analýza je prováděna na základě vygenerovaných kvantitativních dat. V reálném světě není často známé „pravé“ přiřazení objektů do shluků, a proto jsou v práci použita právě vygenerovaná data. Úspěšnost metod z hlediska klasifikace objektů do shluků je zkoumána na základě vybraných externích indexů. Celkově se jako nejlepší shluková metoda jeví metoda založená na smíšených modelech, z hierarchických metod se dále nejlépe umístila Wardova metoda s čtvercovou Euklidovskou vzdáleností. Dále bude podle vybraných indexů zkoumáno, zda má na úspěšnost klasifikace objektů do shluků vliv počet shluků, velikost shluku, počet proměnných či různá velikost minimální meziskupinové vzdálenosti. |
Klíčová slova: | Gaussovy smíšené modely; hierarchické metody; metoda k-průměrů; shluková analýza; externí kritéria |
Název práce: | Clustering methods and evaluation of their classification ability |
---|---|
Autor(ka) práce: | Janoutová, Eva |
Typ práce: | Diploma thesis |
Vedoucí práce: | Šulc, Zdeněk |
Oponenti práce: | Cibulková, Jana |
Jazyk práce: | Česky |
Abstrakt: | This thesis aims to compare the ability of selected cluster analysis methods concerning classifying objects into known groups. This analysis is done by using generated quantitative data. In the real world, the “true” classification of objects into clusters is often not known. Therefore a generated type of data has been used in this thesis. The ability of the selected methods to classify objects into clusters is analysed by four external indices. Overall, the best cluster method is the Gaussian mixture model method, followed by the hierarchical Ward method with squared Euclidean distance. Additionally, according to the indices that are analysed, the number of clusters, size of the clusters, number of variables, and different minimal cluster distance affect the ability to classify objects into clusters. |
Klíčová slova: | cluster analysis; hierarchical methods; k-means method; external indices; Gaussian mixture model |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 1. 3. 2019 |
---|---|
Datum podání práce: | 1. 12. 2019 |
Datum obhajoby: | 29. 1. 2020 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/68969/podrobnosti |