Discriminant and cluster analysis as a tool for classification of objects

Thesis title: Diskriminační a shluková analýza jako nástroj klasifikace objektů
Author: Rynešová, Pavlína
Thesis type: Diplomová práce
Supervisor: Löster, Tomáš
Opponents: Řezanková, Hana
Thesis language: Česky
Abstract:
Shluková a diskriminační analýza patří mezi základní klasifikační metody. Pomocí shlukové analýzy lze neuspořádanou skupinu objektů uspořádat do několika vnitřně sourodých tříd či shluků. Diskriminační analýza vytváří na základě znalosti příslušností již existujících tříd klasifikační pravidlo, podle kterého lze následně zařadit jednotky s neznámou skupinovou příslušností. Cílem této práce je srovnání diskriminační analýzy a vybraných metod shlukové analýzy. K vyjádření vzdáleností mezi objekty je v rámci každé metody shlukové analýzy využita čtvercová Euklidovská a Mahalanobisova vzdálenost. Celkem je v práci analyzováno 28 souborů. V případě ponechání korelovaných proměnných v souboru a aplikování čtvercové Euklidovské vzdálenosti nejúspěšněji zařadila objekty do shluků Wardova metoda (42,0 %). Po změně metriky na Mahalanobisovu vzdálenost se nejúspěšnější stala metoda nejvzdálenějšího souseda (37,5 %). Po odstranění silně korelovaných proměnných a aplikování metod s Euklidovskou metrikou zařadila objekty nejúspěšněji v nejvíce souborech opět Wardova metoda (42,0 %). Z výsledků práce dále vyplývá, že shluková analýza je úspěšnější u dat bez korelovaných proměnných než při jejich ponechání v souboru. Průměrný výsledek diskriminační analýzy u dat s korelovanými proměnnými i u dat bez korelovaných proměnných činí 88,7 %.
Keywords: shluková analýza; diskriminační analýza; čtvercová Euklidovská vzdálenost; Mahalanobisova vzdálenost; Wardova metoda; metoda nejvzdálenějšího souseda
Thesis title: Discriminant and cluster analysis as a tool for classification of objects
Author: Rynešová, Pavlína
Thesis type: Diploma thesis
Supervisor: Löster, Tomáš
Opponents: Řezanková, Hana
Thesis language: Česky
Abstract:
Cluster and discriminant analysis belong to basic classification methods. Using cluster analysis can be a disordered group of objects organized into several internally homogeneous classes or clusters. Discriminant analysis creates knowledge based on the jurisdiction of existing classes classification rule, which can be then used for classifying units with an unknown group membership. The aim of this thesis is a comparison of discriminant analysis and different methods of cluster analysis. To reflect the distances between objects within each cluster, squeared Euclidean and Mahalanobis distances are used. In total, there are 28 datasets analyzed in this thesis. In case of leaving correlated variables in the set and applying squared Euclidean distance, Ward´s method classified objects into clusters the most successfully (42,0 %). After changing metrics on the Mahalanobis distance, the most successful method has become the furthest neighbor method (37,5 %). After removing highly correlated variables and applying methods with Euclidean metric, Ward´s method was again the most successful in classification of objects (42,0%). From the result implies that cluster analysis is more precise when excluding correlated variables than when leaving them in a dataset. The average result of discriminant analysis for data with correlated variables and also without correlated variables is 88,7 %.
Keywords: cluster analysis; discriminant analysis; squared Euclidean distance; Mahalanobis distance; Ward´s method; furthest neighbor method

Information about study

Study programme: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 9. 9. 2015
Date of submission: 11. 12. 2015
Date of defense: 3. 2. 2016
Identifier in the InSIS system: https://insis.vse.cz/zp/53884/podrobnosti

Files for download

    Last update: