Porovnání různých metod shlukové analýzy kategoriálních dat
Název práce: | Porovnání různých metod shlukové analýzy kategoriálních dat |
---|---|
Autor(ka) práce: | Hamralová, Zuzana |
Typ práce: | Diplomová práce |
Vedoucí práce: | Šulc, Zdeněk |
Oponenti práce: | Löster, Tomáš |
Jazyk práce: | Česky |
Abstrakt: | Tato diplomová práce se zabývá metodami shlukové analýzy kategoriálních dat. Řada metod shlukování kategoriálních dat není řádně prozkoumaná, protože se mnoho z nich stále vyvíjí. Cílem práce je představit, prozkoumat a porovnat vybrané tři metody shlukování kategoriálních dat, z nichž jedna je hierarchické shlukování pomocí Gowerova koeficientu, jakožto představitel klasických metod, a další dvě, algoritmy ROCK a COOLCAT, jsou představiteli nových přístupů. Analytická část práce se zabývá porovnáním metod u sedmi reálných datových souborů, které obsahují jednu hlavní třídicí proměnnou. Z výsledků vyplývá, že nejpřesnější zařazení kategorií třídicí proměnné do vytvořených shluků a nejkvalitnější shluky má u většiny datových souborů shlukování pomocí algoritmu ROCK po odebrání nezařazených pozorování, která algoritmus považoval za odlehlá. Přesto tato metoda není vždy optimální, protože při ní často dochází ke ztrátě informací o části pozorování. Pokud je požadováno klasifikovat všechna pozorování, nejlepší shluky byly u většiny datových souborů vytvořeny pomocí algoritmu COOLCAT. |
Klíčová slova: | COOLCAT; ROCK; kategoriální data; hierarchické shlukování; shluková analýza |
Název práce: | Comparison of different methods of categorical data cluster analysis |
---|---|
Autor(ka) práce: | Hamralová, Zuzana |
Typ práce: | Diploma thesis |
Vedoucí práce: | Šulc, Zdeněk |
Oponenti práce: | Löster, Tomáš |
Jazyk práce: | Česky |
Abstrakt: | This diploma thesis deals with methods of categorical data cluster analysis. Many categorical data clustering methods have not been properly researched because these methods are still developing. The aim of this work is to present, explore and compare three selected methods of categorical data clustering, one of them is hierarchical clustering using the Gower coefficient as a representative of classical methods, and the other two, ROCK and COOLCAT algorithms, as representatives of new approaches. The analytical part of the thesis deals with the comparison of methods on seven real data sets, which contain one main class variable. The results show that the most accurate classification of the categories of the class variable into the created clusters and the highest quality clusters of most data sets has clustering using the ROCK algorithm after removing unclassified observations, which the algorithm considered as outliers. Nevertheless, this method is not always optimal, because it often loses information about part of the observations. If it is required to classify all observations, the best clusters were created for most data sets using the COOLCAT algorithm. |
Klíčová slova: | cluster analysis; categorical data; hierarchical clustering; ROCK; COOLCAT |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 10. 11. 2020 |
---|---|
Datum podání práce: | 23. 6. 2021 |
Datum obhajoby: | 24. 8. 2021 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/75070/podrobnosti |