Cluster analysis as a tool for object classification

Thesis title: Shluková analýza jako nástroj klasifikace objektů
Author: Vanišová, Adéla
Thesis type: Diplomová práce
Supervisor: Löster, Tomáš
Opponents: Bílková, Diana
Thesis language: Česky
Abstract:
Cílem této diplomové práce je prověření schopnosti vybraných metod shlukové analýzy správně segmentovat datový soubor složený pouze z kvantitativních proměnných. Základním kritériem pro datové soubory je předpoklad, že musí být znám počet tříd a příslušnost jednotlivých objektů do těchto tříd. Na základě znalosti o počtu tříd byla provedena shluková analýza. Přiřazení objektů k jednotlivým shlukům bylo následně porovnáno se skutečnou příslušností objektů do původních tříd. Výstupem je relativní úspěšnost vybraných metod na zkoumaných datech. Metody shlukové analýzy samy o sobě nejsou schopné určit, jaký má být optimální počet shluků, proto byly v druhém kroku pro každý zkoumaný datový soubor určeny hodnoty vybraných kritérií odhadujících optimální počet shluků. Na základě tohoto výstupu byla zkoumána schopnost vybraných kritérií správně rozpoznat původní počet tříd. Hlavním přínosem této diplomové práce je validace schopnosti vybraných metod shlukové analýzy identifikovat podobnost objektů a ověření schopnosti vybraných kritérií odhadnout počet shluků, který odpovídá skutečnému rozdělení souboru. Zároveň tato práce nabízí strukturovaný přehled základních metod shlukové analýzy a ukazatelů pro odhad optimálního počtu shluků.
Keywords: shluková analýza; metody shlukování; optimální počet shluků
Thesis title: Cluster analysis as a tool for object classification
Author: Vanišová, Adéla
Thesis type: Diploma thesis
Supervisor: Löster, Tomáš
Opponents: Bílková, Diana
Thesis language: Česky
Abstract:
The aim of this thesis is to examine the cluster analysis ability segment the data set by selected methods. The data sets are consisting of quantitative variables. The basic criterion for the data sets is that the number of classes has to be known and the next criterion is that the membership of all object to each class has to be known too. Execution of the cluster analysis was based on knowledge about the number of classes. Classified objects to individual clusters were compared with its original classes. The output was the relative success of classification by selected methods. Cluster analysis methods are not able to determine an optimal number of clusters. Estimates of the optimal number of clusters were the second step in analysis for each data set. The ability of selected criteria identify the original number of classes was analyzed by comparing numbers of original classes and numbers of optimal clusters. The main contribution of this thesis is the validation of the ability of selected cluster analysis methods to identify similar objects and verify the ability of selected criteria to estimate the number of clusters corresponding to the real file distribution. Moreover, this work provides a structured overview of the basic cluster analysis methods and indicators for estimating the optimal number of clusters.
Keywords: methods for cluster analysis; cluster analysis; optimal number of clusters

Information about study

Study programme: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 12. 1. 2012
Date of submission: 10. 5. 2012
Date of defense: 14. 6. 2012
Identifier in the InSIS system: https://insis.vse.cz/zp/36820/podrobnosti

Files for download

    Last update: