Comparison of clustering methods for longitudinal data
Thesis title: | Porovnání přístupů ke shlukové analýze panelových dat |
---|---|
Author: | Grishko, Anna |
Thesis type: | Diplomová práce |
Supervisor: | Šulc, Zdeněk |
Opponents: | Sobíšek, Lukáš |
Thesis language: | Česky |
Abstract: | Panelová (longitudinální) data kombinují vlastnosti průřezových dat a časových řad. Jsou to soubory několika (desítky, stovky, tisícovky atd.) objektů (případně s několika sledovanými statistickými znaky), které jsou sledovány napříč časem. Výhodou je kombinace jak průřezového pohledu, který dovoluje porovnávat objekty mezi sebou, tak i pohledu skrz čas, což umožňuje pozorovat dlouhodobější vývoj proměnných. Tato diplomová práce se zabývá shlukovou analýzou panelových (longitudinálních) dat. Shluková analýza může být použita jako samostatný úkol explorativní analýzy nebo být dílčí častí jiné analýzy (v případě regresní analýzy panelových dat může být použita jako ji první krok pro zpřesnění odhadů regresních parametrů).V teoretické části jsou popsány různé datové typy a jsou vymezena data panelová, čím se liší od časových řad a průřezových dat a úskalí analýzy panelových studií. Dále je popsána motivace shlukování panelových dat a diskutovány přístupy shlukování. Jsou představeny dva proudy: modelový přístup a přístup založený na charakteristikách dat. Skupinu modelových přístupů zastupují algoritmy MixAK a longclust a skupinu přístupů založených na charakteristikách dat zastupují algoritmy kml a CluMP. V praktické částí jsou mezi sebou porovnány tyto čtyři metody. Porovnání je provedeno pomocí simulační studie v systému R. Pro tyto účely byl vytvořen Rkový kód pro generování umělých panelových dat napodobujících trajektorie genové exprese. Součástí práce je i kód pro simulaci shlukování a následující vizualizaci výsledků pomocí algoritmů MixAK, longclust, kml a CluMP. Jsou diskutovány výsledky simulace, výhody a nevýhody různých metod. |
Keywords: | panelová data; shluková analýza; genová exprese; modelový přístup ke shlukování; shlukování založené na charakteristikách dat; model se smíšenými efekty |
Thesis title: | Comparison of clustering methods for longitudinal data |
---|---|
Author: | Grishko, Anna |
Thesis type: | Diploma thesis |
Supervisor: | Šulc, Zdeněk |
Opponents: | Sobíšek, Lukáš |
Thesis language: | Česky |
Abstract: | Panel (longitudinal) data is a combination of cross-sectional data and times series. Panel data consists of a sample of objects that are observed over time. They allow to compare individuals in a cross-sectional way and their dynamical changes. This master’s thesis deals with a cluster analysis of panel data. A cluster analysis can be performed as an explanatory analysis of a panel data set. It also could be a part of a more complex analysis. For example, cluster analysis could be used as a first step in regression analysis of panel data in order to improve parameters' estimations. The theoretical part of the thesis summarizes different data types and compare panel data with cross-sectional data and times series, it includes challenges in panel data analysis. Next, cluster analysis of panel data is discussed and two main approaches are compared: the model-based approach and the feature-based approach. Four clustering algorithms are described: two model-based algorithms (MixAK and longclust) and two feature-based algorithms (kml and CluMP). The simulation study was performed in R on 100 samples of artificial gene expression panel data. The R code for generation of such data is attached. There is also a code for simulation, clustering performance’s assessment and output visualizations for all algorithms (MixAK, longclust, kml and CluMP). The results are discussed and compared for each algorithm. |
Keywords: | gene expression; mixed effects model; panel data; model-based clustering; clustering analysis; feature-based clustering |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 11. 3. 2019 |
---|---|
Date of submission: | 25. 6. 2019 |
Date of defense: | 22. 8. 2019 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/69128/podrobnosti |