Shlukovací metody pro velké soubory dat

Název práce: Shlukovací metody pro velké soubory dat
Autor(ka) práce: Vilikus, Ondřej
Typ práce: Diplomová práce
Vedoucí práce: Fialová, Hana
Oponenti práce: Húsek, Dušan
Jazyk práce: Česky
Abstrakt:
S rostoucím množstvím shromažďovaných a ukládaných dat vzniká potřeba shlukovacích metod, které by se dokázaly vypořádat i s rozsáhlými datovými soubory. Proto se objevuje množství nových algoritmů, vycházejících jak ze statistických přístupů, tak i z oblasti strojového učení. Cílem této diplomové práce je stručně představit dostupné metody shlukové analýzy a zhodnotit jejich silné a slabé stránky při analýze velkých souborů. Obsahem teoretické části je shrnutí základních pojmů a principů, které jsou všem metodám společné, a popisu nejznámějších metod shlukové analýzy. Ten obsahuje stručné vysvětlení, na jakém principu fungují a jaké výhody nebo případné nedostatky můžeme při jejich použití očekávat. Praktická část práce je věnována vlastnímu testování osmi metod dostupných v komerčním (SPSS, S-PLUS, STATISTICA) nebo akademickém (Weka) softwaru. Pro testování jsou použity umělé soubory se specifickými charakteristikami, které jsem vygeneroval pomocí vlastního algoritmu. Ten je rozšířením Neyman-Scottova procesu a kromě sférických shluků generuje i shluky nepravidelných tvarů. Výsledky potvrzují očekávání vycházející z teoretických předpokladů. Přinášejí však možnost kvantifikace vlivu charakteru dat na vhodnost jednotlivých metod.
Klíčová slova: algoritmy; statistický software; generování náhodných souborů; velké datové soubory; shluková analýza
Název práce: Clustering methods for large datasets
Autor(ka) práce: Vilikus, Ondřej
Typ práce: Diploma thesis
Vedoucí práce: Fialová, Hana
Oponenti práce: Húsek, Dušan
Jazyk práce: Česky
Abstrakt:
Klíčová slova:

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistické a pojistné inženýrství
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 17. 5. 2007
Datum podání práce: 1. 6. 2007
Datum obhajoby: 13. 6. 2007
Identifikátor v systému InSIS: https://insis.vse.cz/zp/5645/podrobnosti

Soubory ke stažení

    Poslední aktualizace: