Porovnání přístupů ke shlukové analýze panelových dat

Název práce: Porovnání přístupů ke shlukové analýze panelových dat
Autor(ka) práce: Grishko, Anna
Typ práce: Diplomová práce
Vedoucí práce: Šulc, Zdeněk
Oponenti práce: Sobíšek, Lukáš
Jazyk práce: Česky
Abstrakt:
Panelová (longitudinální) data kombinují vlastnosti průřezových dat a časových řad. Jsou to soubory několika (desítky, stovky, tisícovky atd.) objektů (případně s několika sledovanými statistickými znaky), které jsou sledovány napříč časem. Výhodou je kombinace jak průřezového pohledu, který dovoluje porovnávat objekty mezi sebou, tak i pohledu skrz čas, což umožňuje pozorovat dlouhodobější vývoj proměnných. Tato diplomová práce se zabývá shlukovou analýzou panelových (longitudinálních) dat. Shluková analýza může být použita jako samostatný úkol explorativní analýzy nebo být dílčí častí jiné analýzy (v případě regresní analýzy panelových dat může být použita jako ji první krok pro zpřesnění odhadů regresních parametrů).V teoretické části jsou popsány různé datové typy a jsou vymezena data panelová, čím se liší od časových řad a průřezových dat a úskalí analýzy panelových studií. Dále je popsána motivace shlukování panelových dat a diskutovány přístupy shlukování. Jsou představeny dva proudy: modelový přístup a přístup založený na charakteristikách dat. Skupinu modelových přístupů zastupují algoritmy MixAK a longclust a skupinu přístupů založených na charakteristikách dat zastupují algoritmy kml a CluMP. V praktické částí jsou mezi sebou porovnány tyto čtyři metody. Porovnání je provedeno pomocí simulační studie v systému R. Pro tyto účely byl vytvořen Rkový kód pro generování umělých panelových dat napodobujících trajektorie genové exprese. Součástí práce je i kód pro simulaci shlukování a následující vizualizaci výsledků pomocí algoritmů MixAK, longclust, kml a CluMP. Jsou diskutovány výsledky simulace, výhody a nevýhody různých metod.
Klíčová slova: panelová data; shluková analýza; genová exprese; modelový přístup ke shlukování; shlukování založené na charakteristikách dat; model se smíšenými efekty
Název práce: Comparison of clustering methods for longitudinal data
Autor(ka) práce: Grishko, Anna
Typ práce: Diploma thesis
Vedoucí práce: Šulc, Zdeněk
Oponenti práce: Sobíšek, Lukáš
Jazyk práce: Česky
Abstrakt:
Panel (longitudinal) data is a combination of cross-sectional data and times series. Panel data consists of a sample of objects that are observed over time. They allow to compare individuals in a cross-sectional way and their dynamical changes. This master’s thesis deals with a cluster analysis of panel data. A cluster analysis can be performed as an explanatory analysis of a panel data set. It also could be a part of a more complex analysis. For example, cluster analysis could be used as a first step in regression analysis of panel data in order to improve parameters' estimations. The theoretical part of the thesis summarizes different data types and compare panel data with cross-sectional data and times series, it includes challenges in panel data analysis. Next, cluster analysis of panel data is discussed and two main approaches are compared: the model-based approach and the feature-based approach. Four clustering algorithms are described: two model-based algorithms (MixAK and longclust) and two feature-based algorithms (kml and CluMP). The simulation study was performed in R on 100 samples of artificial gene expression panel data. The R code for generation of such data is attached. There is also a code for simulation, clustering performance’s assessment and output visualizations for all algorithms (MixAK, longclust, kml and CluMP). The results are discussed and compared for each algorithm.
Klíčová slova: gene expression; mixed effects model; panel data; model-based clustering; clustering analysis; feature-based clustering

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 11. 3. 2019
Datum podání práce: 25. 6. 2019
Datum obhajoby: 22. 8. 2019
Identifikátor v systému InSIS: https://insis.vse.cz/zp/69128/podrobnosti

Soubory ke stažení

    Poslední aktualizace: