Diskriminační a shluková analýza jako nástroj klasifikace objektů
Název práce: | Diskriminační a shluková analýza jako nástroj klasifikace objektů |
---|---|
Autor(ka) práce: | Rynešová, Pavlína |
Typ práce: | Diplomová práce |
Vedoucí práce: | Löster, Tomáš |
Oponenti práce: | Řezanková, Hana |
Jazyk práce: | Česky |
Abstrakt: | Shluková a diskriminační analýza patří mezi základní klasifikační metody. Pomocí shlukové analýzy lze neuspořádanou skupinu objektů uspořádat do několika vnitřně sourodých tříd či shluků. Diskriminační analýza vytváří na základě znalosti příslušností již existujících tříd klasifikační pravidlo, podle kterého lze následně zařadit jednotky s neznámou skupinovou příslušností. Cílem této práce je srovnání diskriminační analýzy a vybraných metod shlukové analýzy. K vyjádření vzdáleností mezi objekty je v rámci každé metody shlukové analýzy využita čtvercová Euklidovská a Mahalanobisova vzdálenost. Celkem je v práci analyzováno 28 souborů. V případě ponechání korelovaných proměnných v souboru a aplikování čtvercové Euklidovské vzdálenosti nejúspěšněji zařadila objekty do shluků Wardova metoda (42,0 %). Po změně metriky na Mahalanobisovu vzdálenost se nejúspěšnější stala metoda nejvzdálenějšího souseda (37,5 %). Po odstranění silně korelovaných proměnných a aplikování metod s Euklidovskou metrikou zařadila objekty nejúspěšněji v nejvíce souborech opět Wardova metoda (42,0 %). Z výsledků práce dále vyplývá, že shluková analýza je úspěšnější u dat bez korelovaných proměnných než při jejich ponechání v souboru. Průměrný výsledek diskriminační analýzy u dat s korelovanými proměnnými i u dat bez korelovaných proměnných činí 88,7 %. |
Klíčová slova: | shluková analýza; diskriminační analýza; čtvercová Euklidovská vzdálenost; Mahalanobisova vzdálenost; Wardova metoda; metoda nejvzdálenějšího souseda |
Název práce: | Discriminant and cluster analysis as a tool for classification of objects |
---|---|
Autor(ka) práce: | Rynešová, Pavlína |
Typ práce: | Diploma thesis |
Vedoucí práce: | Löster, Tomáš |
Oponenti práce: | Řezanková, Hana |
Jazyk práce: | Česky |
Abstrakt: | Cluster and discriminant analysis belong to basic classification methods. Using cluster analysis can be a disordered group of objects organized into several internally homogeneous classes or clusters. Discriminant analysis creates knowledge based on the jurisdiction of existing classes classification rule, which can be then used for classifying units with an unknown group membership. The aim of this thesis is a comparison of discriminant analysis and different methods of cluster analysis. To reflect the distances between objects within each cluster, squeared Euclidean and Mahalanobis distances are used. In total, there are 28 datasets analyzed in this thesis. In case of leaving correlated variables in the set and applying squared Euclidean distance, Ward´s method classified objects into clusters the most successfully (42,0 %). After changing metrics on the Mahalanobis distance, the most successful method has become the furthest neighbor method (37,5 %). After removing highly correlated variables and applying methods with Euclidean metric, Ward´s method was again the most successful in classification of objects (42,0%). From the result implies that cluster analysis is more precise when excluding correlated variables than when leaving them in a dataset. The average result of discriminant analysis for data with correlated variables and also without correlated variables is 88,7 %. |
Klíčová slova: | cluster analysis; discriminant analysis; squared Euclidean distance; Mahalanobis distance; Ward´s method; furthest neighbor method |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 9. 9. 2015 |
---|---|
Datum podání práce: | 11. 12. 2015 |
Datum obhajoby: | 3. 2. 2016 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/53884/podrobnosti |