Porovnání různých metod shlukové analýzy kategoriálních dat

Název práce: Porovnání různých metod shlukové analýzy kategoriálních dat
Autor(ka) práce: Hamralová, Zuzana
Typ práce: Diplomová práce
Vedoucí práce: Šulc, Zdeněk
Oponenti práce: Löster, Tomáš
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zabývá metodami shlukové analýzy kategoriálních dat. Řada metod shlukování kategoriálních dat není řádně prozkoumaná, protože se mnoho z nich stále vyvíjí. Cílem práce je představit, prozkoumat a porovnat vybrané tři metody shlukování kategoriálních dat, z nichž jedna je hierarchické shlukování pomocí Gowerova koeficientu, jakožto představitel klasických metod, a další dvě, algoritmy ROCK a COOLCAT, jsou představiteli nových přístupů. Analytická část práce se zabývá porovnáním metod u sedmi reálných datových souborů, které obsahují jednu hlavní třídicí proměnnou. Z výsledků vyplývá, že nejpřesnější zařazení kategorií třídicí proměnné do vytvořených shluků a nejkvalitnější shluky má u většiny datových souborů shlukování pomocí algoritmu ROCK po odebrání nezařazených pozorování, která algoritmus považoval za odlehlá. Přesto tato metoda není vždy optimální, protože při ní často dochází ke ztrátě informací o části pozorování. Pokud je požadováno klasifikovat všechna pozorování, nejlepší shluky byly u většiny datových souborů vytvořeny pomocí algoritmu COOLCAT.
Klíčová slova: COOLCAT; ROCK; kategoriální data; hierarchické shlukování; shluková analýza
Název práce: Comparison of different methods of categorical data cluster analysis
Autor(ka) práce: Hamralová, Zuzana
Typ práce: Diploma thesis
Vedoucí práce: Šulc, Zdeněk
Oponenti práce: Löster, Tomáš
Jazyk práce: Česky
Abstrakt:
This diploma thesis deals with methods of categorical data cluster analysis. Many categorical data clustering methods have not been properly researched because these methods are still developing. The aim of this work is to present, explore and compare three selected methods of categorical data clustering, one of them is hierarchical clustering using the Gower coefficient as a representative of classical methods, and the other two, ROCK and COOLCAT algorithms, as representatives of new approaches. The analytical part of the thesis deals with the comparison of methods on seven real data sets, which contain one main class variable. The results show that the most accurate classification of the categories of the class variable into the created clusters and the highest quality clusters of most data sets has clustering using the ROCK algorithm after removing unclassified observations, which the algorithm considered as outliers. Nevertheless, this method is not always optimal, because it often loses information about part of the observations. If it is required to classify all observations, the best clusters were created for most data sets using the COOLCAT algorithm.
Klíčová slova: cluster analysis; categorical data; hierarchical clustering; ROCK; COOLCAT

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 10. 11. 2020
Datum podání práce: 23. 6. 2021
Datum obhajoby: 24. 8. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/75070/podrobnosti

Soubory ke stažení

    Poslední aktualizace: