Cluster analysis as a tool for object classification
Thesis title: | Shluková analýza jako nástroj klasifikace objektů |
---|---|
Author: | Vanišová, Adéla |
Thesis type: | Diplomová práce |
Supervisor: | Löster, Tomáš |
Opponents: | Bílková, Diana |
Thesis language: | Česky |
Abstract: | Cílem této diplomové práce je prověření schopnosti vybraných metod shlukové analýzy správně segmentovat datový soubor složený pouze z kvantitativních proměnných. Základním kritériem pro datové soubory je předpoklad, že musí být znám počet tříd a příslušnost jednotlivých objektů do těchto tříd. Na základě znalosti o počtu tříd byla provedena shluková analýza. Přiřazení objektů k jednotlivým shlukům bylo následně porovnáno se skutečnou příslušností objektů do původních tříd. Výstupem je relativní úspěšnost vybraných metod na zkoumaných datech. Metody shlukové analýzy samy o sobě nejsou schopné určit, jaký má být optimální počet shluků, proto byly v druhém kroku pro každý zkoumaný datový soubor určeny hodnoty vybraných kritérií odhadujících optimální počet shluků. Na základě tohoto výstupu byla zkoumána schopnost vybraných kritérií správně rozpoznat původní počet tříd. Hlavním přínosem této diplomové práce je validace schopnosti vybraných metod shlukové analýzy identifikovat podobnost objektů a ověření schopnosti vybraných kritérií odhadnout počet shluků, který odpovídá skutečnému rozdělení souboru. Zároveň tato práce nabízí strukturovaný přehled základních metod shlukové analýzy a ukazatelů pro odhad optimálního počtu shluků. |
Keywords: | shluková analýza; metody shlukování; optimální počet shluků |
Thesis title: | Cluster analysis as a tool for object classification |
---|---|
Author: | Vanišová, Adéla |
Thesis type: | Diploma thesis |
Supervisor: | Löster, Tomáš |
Opponents: | Bílková, Diana |
Thesis language: | Česky |
Abstract: | The aim of this thesis is to examine the cluster analysis ability segment the data set by selected methods. The data sets are consisting of quantitative variables. The basic criterion for the data sets is that the number of classes has to be known and the next criterion is that the membership of all object to each class has to be known too. Execution of the cluster analysis was based on knowledge about the number of classes. Classified objects to individual clusters were compared with its original classes. The output was the relative success of classification by selected methods. Cluster analysis methods are not able to determine an optimal number of clusters. Estimates of the optimal number of clusters were the second step in analysis for each data set. The ability of selected criteria identify the original number of classes was analyzed by comparing numbers of original classes and numbers of optimal clusters. The main contribution of this thesis is the validation of the ability of selected cluster analysis methods to identify similar objects and verify the ability of selected criteria to estimate the number of clusters corresponding to the real file distribution. Moreover, this work provides a structured overview of the basic cluster analysis methods and indicators for estimating the optimal number of clusters. |
Keywords: | methods for cluster analysis; cluster analysis; optimal number of clusters |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 12. 1. 2012 |
---|---|
Date of submission: | 10. 5. 2012 |
Date of defense: | 14. 6. 2012 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/36820/podrobnosti |