Cluster analysis as a tool for classification of objects

Thesis title: Shluková analýza jako nástroj klasifikace objektů
Author: Budilová, Šárka
Thesis type: Diplomová práce
Supervisor: Löster, Tomáš
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
Shluková analýza dat je oblíbená klasifikační metoda vícerozměrné statistiky. Pomocí této metody lze klasifikovat zkoumané objekty na základě jejich vzájemných podobností, tj. rozdělit je do několika skupin, respektive shluků. Výsledky shlukování mohou být při zvolení různých metod, měr vzdáleností a postupů odlišné. Cílem této diplomové práce je srovnání úspěšnosti zařazení objektů do známých klasifikačních tříd v rámci zvolených metod a postupů. Celkem bylo analyzováno 15 různých datových souborů, z nichž každý obsahoval známou informaci o zařazení objektů do skupin. Úspěšnost zařazení dané metody byla vypočtena na základě porovnání známých klasifikačních tříd a vzniklých shluků. Kromě porovnání úspěšnosti vybraných metod shlukové analýzy byl v rámci každé metody zkoumán vliv standardizace a korelace na úspěšnost zařazení jednotlivých objektů. Pro vyjádření vzdálenosti mezi objekty byla využita euklidovská čtvercová vzdálenost. Výsledky práce poukazují na lepší úspěšnost zařazování objektů v případě zachování korelovaných proměnných v datovém souboru. Před standardizací zařadily metody v průměru 69,8 % objektů a po standardizaci 70,8 % objektů do správných klasifikačních tříd. Úspěšnost zařazení byla v průměru o dva procentní body vyšší než v případě vypuštění korelovaných proměnných. Výsledky dále také ukazují značnou důležitost standardizace v případě Wardovy metody. Po provedené standardizaci datového souboru je Wardova metoda v průměru o devět procentních bodů úspěšnější a zařazuje do správných klasifikačních tříd nejvíce objektů. Při zachování korelovaných proměnných a po standardizaci dat činí úspěšnost této metody 76,4 %. Standardizace pozitivně ovlivňuje také centroidní metodu a metodu nejvzdálenějšího souseda. Při ponechání původních, nestejnoměrných proměnných zařazují objekty naopak lépe mediánová metoda, metoda nejbližšího souseda a metoda průměrné vazby.
Keywords: shluková analýza; standardizace; korelované proměnné; čtvercová euklidovská vzdálenost; Wardova metoda
Thesis title: Cluster analysis as a tool for classification of objects
Author: Budilová, Šárka
Thesis type: Diploma thesis
Supervisor: Löster, Tomáš
Opponents: Šulc, Zdeněk
Thesis language: Česky
Abstract:
Cluster analysis is a popular method of multivariate statistics. Based on mutual similarities between objects this method is able to classify and divide objects into several groups or clusters. The results of the clustering can be different by using different methods, measures of distance and procedures. The main aim of this thesis is to compare the results of several methods of cluster analysis with the known classification of classes from the original data file. In total, there are 15 data files, which were analyzed and each of them contained known information about the right allocation of objects in groups. The success of clustering of each method was calculated by comparing the known classification of classes and resulted clusters. In addition to the comparison of individual methods of cluster analysis was compared the impact of standardization and correlation to the success of each method. To reflect the distance betweeen the objects within each clusters, squared Euclidean distance was used. The results of this thesis point out that better success of clustering were achieved in the case of correlated variables in data file. The succes of clustering was higher about 2 percent points than in the case when correlated variables were deleted from data set. The methods divided 69,8 % objects before standardization and 70,8 % objects after standardization. The results also show a large importance of standardization in the case of Ward´s method. After standardization this method rank the most objects into correct classification classes and were more succesful, about nine percent points. In the case of correlated variables is the succes of the method 76,4 %. Standardization positively influences also centroid method and the method of farthest neighbour. Median method, nearest neighbour method and the method of average linkage achieve higher success of clustering in the case of original, nonstandardized variables (uneven variables).
Keywords: cluster analysis; standardization; correlated variables; squared Euclidean distance; Ward's method

Information about study

Study programme: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 9. 9. 2015
Date of submission: 13. 5. 2016
Date of defense: 8. 6. 2016
Identifier in the InSIS system: https://insis.vse.cz/zp/53882/podrobnosti

Files for download

    Last update: