Hodnocení úspěšnosti metod shlukové analýzy

Název práce: Hodnocení úspěšnosti metod shlukové analýzy
Autor(ka) práce: Maršálková, Kateřina
Typ práce: Diplomová práce
Vedoucí práce: Löster, Tomáš
Oponenti práce: Makhalova, Elena
Jazyk práce: Česky
Abstrakt:
Shluková analýza dat je jednou z klasifikačních metod vícerozměrné statistické analýzy. Jejím úkolem je především zatřídění objektů do shluků tak, aby si objekty uvnitř těchto shluků byly co nejvíce podobné. Cílem této práce je vyhodnotit úspěšnosti zařazení objektů pomocí šesti hierarchických metod shlukové analýzy. K vyjádření vzdáleností mezi objekty je využita čtvercová Euklidovská vzdálenost a Mahalanobisova vzdálenost. Vyhodnocení úspěšnosti metod probíhá díky informaci, do jakého shluku daný objekt patří, která je již obsažena v datových souborech. Práce poukázala na Wardovu metodu jako v průměru nejúspěšnější hierarchickou metodu v roztřídění objektů do shluků, jelikož právě tato metoda byla u většiny datových souborů úspěšnější v roztřídění objektů než zbylé hierarchické metody, a to jak v případě ponechání korelovaných proměnných v datovém souboru, tak při odstranění těchto proměnných. Z výsledků práce vyplývá, že pro nejvyšší úspěšnost zařazení objektů do shluků by měl být datový soubor očištěn o korelované proměnné. Pokud očištěn nebude, dosáhnou metody lepších výsledků, jestliže budou vzdálenosti objektů měřeny Euklidovskou metrikou.
Klíčová slova: shluková analýza; vzdálenost objektů; hierarchické metody; Wardova metoda
Název práce: Evaluating the success of cluster analysis methods
Autor(ka) práce: Maršálková, Kateřina
Typ práce: Diploma thesis
Vedoucí práce: Löster, Tomáš
Oponenti práce: Makhalova, Elena
Jazyk práce: Česky
Abstrakt:
Cluster analysis is one of the classification methods of multivariate statistical analysis. The task of this analysis is to classify the objects into clusters so that objects inside these clusters are as similar as possible. The aim of this study is to evaluate the success of the classification of objects using six hierarchical cluster analysis methods. To reflect the distance between the objects, are used squared Euclidean and Mahalanobis distances. The success methods are evaluated through the information, which cluster the object belongs to, and this information is already contained in the data files. This thesis pointed out that the Ward's method is one of the most successful hierarchical method in a classification of objects into clusters. This method has been more successful in sorting objects than the other hierarchical methods, both in the case of leaving the correlated variables in the data file as well as removing them. The results of this work show that the highest success of classification objects into clusters is when the data set is cleaned of correlated variables. If the data file is not cleaned, the methods reach better results when the distance between objects is measured by Euclidean metric.
Klíčová slova: cluster analysis; hierarchical methods; Ward´s method; distance of objects

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 7. 10. 2014
Datum podání práce: 15. 5. 2015
Datum obhajoby: 9. 6. 2015
Identifikátor v systému InSIS: https://insis.vse.cz/zp/49670/podrobnosti

Soubory ke stažení

    Poslední aktualizace: