S rostoucím množstvím shromažďovaných a ukládaných dat vzniká potřeba
shlukovacích metod, které by se dokázaly vypořádat i s rozsáhlými datovými soubory. Proto
se objevuje množství nových algoritmů, vycházejících jak ze statistických přístupů, tak i
z oblasti strojového učení.
Cílem této diplomové práce je stručně představit dostupné metody shlukové analýzy a
zhodnotit jejich silné a slabé stránky při analýze velkých souborů. Obsahem teoretické části
je shrnutí základních pojmů a principů, které jsou všem metodám společné, a popisu
nejznámějších metod shlukové analýzy. Ten obsahuje stručné vysvětlení, na jakém principu
fungují a jaké výhody nebo případné nedostatky můžeme při jejich použití očekávat.
Praktická část práce je věnována vlastnímu testování osmi metod dostupných
v komerčním (SPSS, S-PLUS, STATISTICA) nebo akademickém (Weka) softwaru. Pro
testování jsou použity umělé soubory se specifickými charakteristikami, které jsem
vygeneroval pomocí vlastního algoritmu. Ten je rozšířením Neyman-Scottova procesu a
kromě sférických shluků generuje i shluky nepravidelných tvarů.
Výsledky potvrzují očekávání vycházející z teoretických předpokladů. Přinášejí však
možnost kvantifikace vlivu charakteru dat na vhodnost jednotlivých metod. |