Comparison of clustering methods for longitudinal data

Thesis title: Porovnání přístupů ke shlukové analýze panelových dat
Author: Grishko, Anna
Thesis type: Diplomová práce
Supervisor: Šulc, Zdeněk
Opponents: Sobíšek, Lukáš
Thesis language: Česky
Abstract:
Panelová (longitudinální) data kombinují vlastnosti průřezových dat a časových řad. Jsou to soubory několika (desítky, stovky, tisícovky atd.) objektů (případně s několika sledovanými statistickými znaky), které jsou sledovány napříč časem. Výhodou je kombinace jak průřezového pohledu, který dovoluje porovnávat objekty mezi sebou, tak i pohledu skrz čas, což umožňuje pozorovat dlouhodobější vývoj proměnných. Tato diplomová práce se zabývá shlukovou analýzou panelových (longitudinálních) dat. Shluková analýza může být použita jako samostatný úkol explorativní analýzy nebo být dílčí častí jiné analýzy (v případě regresní analýzy panelových dat může být použita jako ji první krok pro zpřesnění odhadů regresních parametrů).V teoretické části jsou popsány různé datové typy a jsou vymezena data panelová, čím se liší od časových řad a průřezových dat a úskalí analýzy panelových studií. Dále je popsána motivace shlukování panelových dat a diskutovány přístupy shlukování. Jsou představeny dva proudy: modelový přístup a přístup založený na charakteristikách dat. Skupinu modelových přístupů zastupují algoritmy MixAK a longclust a skupinu přístupů založených na charakteristikách dat zastupují algoritmy kml a CluMP. V praktické částí jsou mezi sebou porovnány tyto čtyři metody. Porovnání je provedeno pomocí simulační studie v systému R. Pro tyto účely byl vytvořen Rkový kód pro generování umělých panelových dat napodobujících trajektorie genové exprese. Součástí práce je i kód pro simulaci shlukování a následující vizualizaci výsledků pomocí algoritmů MixAK, longclust, kml a CluMP. Jsou diskutovány výsledky simulace, výhody a nevýhody různých metod.
Keywords: panelová data; shluková analýza; genová exprese; modelový přístup ke shlukování; shlukování založené na charakteristikách dat; model se smíšenými efekty
Thesis title: Comparison of clustering methods for longitudinal data
Author: Grishko, Anna
Thesis type: Diploma thesis
Supervisor: Šulc, Zdeněk
Opponents: Sobíšek, Lukáš
Thesis language: Česky
Abstract:
Panel (longitudinal) data is a combination of cross-sectional data and times series. Panel data consists of a sample of objects that are observed over time. They allow to compare individuals in a cross-sectional way and their dynamical changes. This master’s thesis deals with a cluster analysis of panel data. A cluster analysis can be performed as an explanatory analysis of a panel data set. It also could be a part of a more complex analysis. For example, cluster analysis could be used as a first step in regression analysis of panel data in order to improve parameters' estimations. The theoretical part of the thesis summarizes different data types and compare panel data with cross-sectional data and times series, it includes challenges in panel data analysis. Next, cluster analysis of panel data is discussed and two main approaches are compared: the model-based approach and the feature-based approach. Four clustering algorithms are described: two model-based algorithms (MixAK and longclust) and two feature-based algorithms (kml and CluMP). The simulation study was performed in R on 100 samples of artificial gene expression panel data. The R code for generation of such data is attached. There is also a code for simulation, clustering performance’s assessment and output visualizations for all algorithms (MixAK, longclust, kml and CluMP). The results are discussed and compared for each algorithm.
Keywords: gene expression; mixed effects model; panel data; model-based clustering; clustering analysis; feature-based clustering

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 11. 3. 2019
Date of submission: 25. 6. 2019
Date of defense: 22. 8. 2019
Identifier in the InSIS system: https://insis.vse.cz/zp/69128/podrobnosti

Files for download

    Last update: