Shluková analýza jako nástroj klasifikace objektů
Název práce: | Shluková analýza jako nástroj klasifikace objektů |
---|---|
Autor(ka) práce: | Budilová, Šárka |
Typ práce: | Diplomová práce |
Vedoucí práce: | Löster, Tomáš |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | Shluková analýza dat je oblíbená klasifikační metoda vícerozměrné statistiky. Pomocí této metody lze klasifikovat zkoumané objekty na základě jejich vzájemných podobností, tj. rozdělit je do několika skupin, respektive shluků. Výsledky shlukování mohou být při zvolení různých metod, měr vzdáleností a postupů odlišné. Cílem této diplomové práce je srovnání úspěšnosti zařazení objektů do známých klasifikačních tříd v rámci zvolených metod a postupů. Celkem bylo analyzováno 15 různých datových souborů, z nichž každý obsahoval známou informaci o zařazení objektů do skupin. Úspěšnost zařazení dané metody byla vypočtena na základě porovnání známých klasifikačních tříd a vzniklých shluků. Kromě porovnání úspěšnosti vybraných metod shlukové analýzy byl v rámci každé metody zkoumán vliv standardizace a korelace na úspěšnost zařazení jednotlivých objektů. Pro vyjádření vzdálenosti mezi objekty byla využita euklidovská čtvercová vzdálenost. Výsledky práce poukazují na lepší úspěšnost zařazování objektů v případě zachování korelovaných proměnných v datovém souboru. Před standardizací zařadily metody v průměru 69,8 % objektů a po standardizaci 70,8 % objektů do správných klasifikačních tříd. Úspěšnost zařazení byla v průměru o dva procentní body vyšší než v případě vypuštění korelovaných proměnných. Výsledky dále také ukazují značnou důležitost standardizace v případě Wardovy metody. Po provedené standardizaci datového souboru je Wardova metoda v průměru o devět procentních bodů úspěšnější a zařazuje do správných klasifikačních tříd nejvíce objektů. Při zachování korelovaných proměnných a po standardizaci dat činí úspěšnost této metody 76,4 %. Standardizace pozitivně ovlivňuje také centroidní metodu a metodu nejvzdálenějšího souseda. Při ponechání původních, nestejnoměrných proměnných zařazují objekty naopak lépe mediánová metoda, metoda nejbližšího souseda a metoda průměrné vazby. |
Klíčová slova: | shluková analýza; standardizace; korelované proměnné; čtvercová euklidovská vzdálenost; Wardova metoda |
Název práce: | Cluster analysis as a tool for classification of objects |
---|---|
Autor(ka) práce: | Budilová, Šárka |
Typ práce: | Diploma thesis |
Vedoucí práce: | Löster, Tomáš |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | Cluster analysis is a popular method of multivariate statistics. Based on mutual similarities between objects this method is able to classify and divide objects into several groups or clusters. The results of the clustering can be different by using different methods, measures of distance and procedures. The main aim of this thesis is to compare the results of several methods of cluster analysis with the known classification of classes from the original data file. In total, there are 15 data files, which were analyzed and each of them contained known information about the right allocation of objects in groups. The success of clustering of each method was calculated by comparing the known classification of classes and resulted clusters. In addition to the comparison of individual methods of cluster analysis was compared the impact of standardization and correlation to the success of each method. To reflect the distance betweeen the objects within each clusters, squared Euclidean distance was used. The results of this thesis point out that better success of clustering were achieved in the case of correlated variables in data file. The succes of clustering was higher about 2 percent points than in the case when correlated variables were deleted from data set. The methods divided 69,8 % objects before standardization and 70,8 % objects after standardization. The results also show a large importance of standardization in the case of Ward´s method. After standardization this method rank the most objects into correct classification classes and were more succesful, about nine percent points. In the case of correlated variables is the succes of the method 76,4 %. Standardization positively influences also centroid method and the method of farthest neighbour. Median method, nearest neighbour method and the method of average linkage achieve higher success of clustering in the case of original, nonstandardized variables (uneven variables). |
Klíčová slova: | cluster analysis; standardization; correlated variables; squared Euclidean distance; Ward's method |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 9. 9. 2015 |
---|---|
Datum podání práce: | 13. 5. 2016 |
Datum obhajoby: | 8. 6. 2016 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/53882/podrobnosti |