Discriminant and cluster analysis as a tool for classification of objects
Thesis title: | Diskriminační a shluková analýza jako nástroj klasifikace objektů |
---|---|
Author: | Rynešová, Pavlína |
Thesis type: | Diplomová práce |
Supervisor: | Löster, Tomáš |
Opponents: | Řezanková, Hana |
Thesis language: | Česky |
Abstract: | Shluková a diskriminační analýza patří mezi základní klasifikační metody. Pomocí shlukové analýzy lze neuspořádanou skupinu objektů uspořádat do několika vnitřně sourodých tříd či shluků. Diskriminační analýza vytváří na základě znalosti příslušností již existujících tříd klasifikační pravidlo, podle kterého lze následně zařadit jednotky s neznámou skupinovou příslušností. Cílem této práce je srovnání diskriminační analýzy a vybraných metod shlukové analýzy. K vyjádření vzdáleností mezi objekty je v rámci každé metody shlukové analýzy využita čtvercová Euklidovská a Mahalanobisova vzdálenost. Celkem je v práci analyzováno 28 souborů. V případě ponechání korelovaných proměnných v souboru a aplikování čtvercové Euklidovské vzdálenosti nejúspěšněji zařadila objekty do shluků Wardova metoda (42,0 %). Po změně metriky na Mahalanobisovu vzdálenost se nejúspěšnější stala metoda nejvzdálenějšího souseda (37,5 %). Po odstranění silně korelovaných proměnných a aplikování metod s Euklidovskou metrikou zařadila objekty nejúspěšněji v nejvíce souborech opět Wardova metoda (42,0 %). Z výsledků práce dále vyplývá, že shluková analýza je úspěšnější u dat bez korelovaných proměnných než při jejich ponechání v souboru. Průměrný výsledek diskriminační analýzy u dat s korelovanými proměnnými i u dat bez korelovaných proměnných činí 88,7 %. |
Keywords: | shluková analýza; diskriminační analýza; čtvercová Euklidovská vzdálenost; Mahalanobisova vzdálenost; Wardova metoda; metoda nejvzdálenějšího souseda |
Thesis title: | Discriminant and cluster analysis as a tool for classification of objects |
---|---|
Author: | Rynešová, Pavlína |
Thesis type: | Diploma thesis |
Supervisor: | Löster, Tomáš |
Opponents: | Řezanková, Hana |
Thesis language: | Česky |
Abstract: | Cluster and discriminant analysis belong to basic classification methods. Using cluster analysis can be a disordered group of objects organized into several internally homogeneous classes or clusters. Discriminant analysis creates knowledge based on the jurisdiction of existing classes classification rule, which can be then used for classifying units with an unknown group membership. The aim of this thesis is a comparison of discriminant analysis and different methods of cluster analysis. To reflect the distances between objects within each cluster, squeared Euclidean and Mahalanobis distances are used. In total, there are 28 datasets analyzed in this thesis. In case of leaving correlated variables in the set and applying squared Euclidean distance, Ward´s method classified objects into clusters the most successfully (42,0 %). After changing metrics on the Mahalanobis distance, the most successful method has become the furthest neighbor method (37,5 %). After removing highly correlated variables and applying methods with Euclidean metric, Ward´s method was again the most successful in classification of objects (42,0%). From the result implies that cluster analysis is more precise when excluding correlated variables than when leaving them in a dataset. The average result of discriminant analysis for data with correlated variables and also without correlated variables is 88,7 %. |
Keywords: | cluster analysis; discriminant analysis; squared Euclidean distance; Mahalanobis distance; Ward´s method; furthest neighbor method |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 9. 9. 2015 |
---|---|
Date of submission: | 11. 12. 2015 |
Date of defense: | 3. 2. 2016 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/53884/podrobnosti |