Shluková analýza jako nástroj klasifikace objektů

Název práce: Shluková analýza jako nástroj klasifikace objektů
Autor(ka) práce: Budilová, Šárka
Typ práce: Diplomová práce
Vedoucí práce: Löster, Tomáš
Oponenti práce: Šulc, Zdeněk
Jazyk práce: Česky
Abstrakt:
Shluková analýza dat je oblíbená klasifikační metoda vícerozměrné statistiky. Pomocí této metody lze klasifikovat zkoumané objekty na základě jejich vzájemných podobností, tj. rozdělit je do několika skupin, respektive shluků. Výsledky shlukování mohou být při zvolení různých metod, měr vzdáleností a postupů odlišné. Cílem této diplomové práce je srovnání úspěšnosti zařazení objektů do známých klasifikačních tříd v rámci zvolených metod a postupů. Celkem bylo analyzováno 15 různých datových souborů, z nichž každý obsahoval známou informaci o zařazení objektů do skupin. Úspěšnost zařazení dané metody byla vypočtena na základě porovnání známých klasifikačních tříd a vzniklých shluků. Kromě porovnání úspěšnosti vybraných metod shlukové analýzy byl v rámci každé metody zkoumán vliv standardizace a korelace na úspěšnost zařazení jednotlivých objektů. Pro vyjádření vzdálenosti mezi objekty byla využita euklidovská čtvercová vzdálenost. Výsledky práce poukazují na lepší úspěšnost zařazování objektů v případě zachování korelovaných proměnných v datovém souboru. Před standardizací zařadily metody v průměru 69,8 % objektů a po standardizaci 70,8 % objektů do správných klasifikačních tříd. Úspěšnost zařazení byla v průměru o dva procentní body vyšší než v případě vypuštění korelovaných proměnných. Výsledky dále také ukazují značnou důležitost standardizace v případě Wardovy metody. Po provedené standardizaci datového souboru je Wardova metoda v průměru o devět procentních bodů úspěšnější a zařazuje do správných klasifikačních tříd nejvíce objektů. Při zachování korelovaných proměnných a po standardizaci dat činí úspěšnost této metody 76,4 %. Standardizace pozitivně ovlivňuje také centroidní metodu a metodu nejvzdálenějšího souseda. Při ponechání původních, nestejnoměrných proměnných zařazují objekty naopak lépe mediánová metoda, metoda nejbližšího souseda a metoda průměrné vazby.
Klíčová slova: shluková analýza; standardizace; korelované proměnné; čtvercová euklidovská vzdálenost; Wardova metoda
Název práce: Cluster analysis as a tool for classification of objects
Autor(ka) práce: Budilová, Šárka
Typ práce: Diploma thesis
Vedoucí práce: Löster, Tomáš
Oponenti práce: Šulc, Zdeněk
Jazyk práce: Česky
Abstrakt:
Cluster analysis is a popular method of multivariate statistics. Based on mutual similarities between objects this method is able to classify and divide objects into several groups or clusters. The results of the clustering can be different by using different methods, measures of distance and procedures. The main aim of this thesis is to compare the results of several methods of cluster analysis with the known classification of classes from the original data file. In total, there are 15 data files, which were analyzed and each of them contained known information about the right allocation of objects in groups. The success of clustering of each method was calculated by comparing the known classification of classes and resulted clusters. In addition to the comparison of individual methods of cluster analysis was compared the impact of standardization and correlation to the success of each method. To reflect the distance betweeen the objects within each clusters, squared Euclidean distance was used. The results of this thesis point out that better success of clustering were achieved in the case of correlated variables in data file. The succes of clustering was higher about 2 percent points than in the case when correlated variables were deleted from data set. The methods divided 69,8 % objects before standardization and 70,8 % objects after standardization. The results also show a large importance of standardization in the case of Ward´s method. After standardization this method rank the most objects into correct classification classes and were more succesful, about nine percent points. In the case of correlated variables is the succes of the method 76,4 %. Standardization positively influences also centroid method and the method of farthest neighbour. Median method, nearest neighbour method and the method of average linkage achieve higher success of clustering in the case of original, nonstandardized variables (uneven variables).
Klíčová slova: cluster analysis; standardization; correlated variables; squared Euclidean distance; Ward's method

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 9. 9. 2015
Datum podání práce: 13. 5. 2016
Datum obhajoby: 8. 6. 2016
Identifikátor v systému InSIS: https://insis.vse.cz/zp/53882/podrobnosti

Soubory ke stažení

    Poslední aktualizace: