Clustering and regression analysis of micro panel data

Thesis title: Shluková a regresní analýza mikropanelových dat
Author: Sobíšek, Lukáš
Thesis type: Disertační práce
Supervisor: Pecáková, Iva
Opponents: Komárek, Arnošt; Brabec, Marek
Thesis language: Česky
Abstract:
Panelové studie se provádí především za účelem analýzy změn hodnot sledovaných proměnných v čase. V mikropanelovém výzkumu se sleduje velké množství objektů periodicky během relativně krátkého časového úseku (v řádu let). Počet opakovaných měření je v řádu jednotek. Tato práce se věnuje stávajícím přístupům k regresní a shlukové analýze mikropanelových dat. Jedním z přístupů k analýze mikropanelu je využití modifikovaných vícerozměrných statistických modelů pro průřezová data, které zohledňují korelaci měření pro daný objekt. V práci jsou shrnuty dostupné nástroje pro regresní analýzu mikropanelových dat. Kromě rekapitulace známých a užívaných smíšených lineárních modelů pro normálně rozdělenou závisle proměnnou jsou stručně představeny nové přístupy pro analýzu vysvětlovaných proměnných s jiným než normálním rozdělením. Mezi ně patří například zobecněný lineární marginální model, zobecněný lineární model se smíšenými efekty a bayesovský přístup. Kromě popisu těchto modelů je uveden stručný přehled jejich implementace v systému R. S regresními modely upravenými pro mikropanelová data je spjato úskalí v nejednoznačnosti odhadu jejich parametrů. V práci je navrženo, jak zpřesnit odhady pomocí shlukové analýzy. Proto jsou v práci popsány metody shlukové analýzy mikropanelových dat. Vzhledem k tomu, že nabídka metod je omezená, hlavním cílem práce bylo navrhnout vlastní dvoukrokový postup shlukování mikropanelových dat. V prvním kroku jsou transformována panelová data na statická pomocí skupiny navržených charakteristik dynamiky, které reprezentují různé vlastnosti časového vývoje sledované proměnné. Ve druhém kroku jsou shlukovány objekty konvenčními prostorovými technikami (aglomerativní shlukování a metoda C-průměrů) na základě matice nepodobnosti hodnot shlukovacích proměnných spočítaných v prvním kroku. Dalším cílem práce je zjistit, zda navržený postup shlukování vede ke zkvalitnění regresních modelů pro tento typ dat. Pomocí simulační studie je porovnáván navržený shlukovací přístup s postupem aplikovaným v balíčku kml systému R a se shlukovacími charakteristikami, které navrhuje Urso (2004). V provedené studii dosáhla kombinace navržených shlukovacích proměnných lepších výsledků než používané skupiny shlukovacích proměnných. Dalším přínosem práce je skript napsaný pro jazyk R přiložený na CD. Tento skript je možno použít pro analýzu vlastních mikropanelových dat.
Keywords: Wardova metoda; smíšený lineární model; charakteristiky dynamiky; regresní analýza mikropanelových dat; metoda C-průměrů; shluková analýza mikropanelových dat
Thesis title: Clustering and regression analysis of micro panel data
Author: Sobíšek, Lukáš
Thesis type: Dissertation thesis
Supervisor: Pecáková, Iva
Opponents: Komárek, Arnošt; Brabec, Marek
Thesis language: Česky
Abstract:
The main purpose of panel studies is to analyze changes in values of studied variables over time. In micro panel research, a large number of elements are periodically observed within the relatively short time period of just a few years. Moreover, the number of repeated measurements is small. This dissertation deals with contemporary approaches to the regression and the clustering analysis of micro panel data. One of the approaches to the micro panel analysis is to use multivariate statistical models originally designed for crosssectional data and modify them in order to take into account the within-subject correlation. The thesis summarizes available tools for the regression analysis of micro panel data. The known and currently used linear mixed effects models for a normally distributed dependent variable are recapitulated. Besides that, new approaches for analysis of a response variable with other than normal distribution are presented. These approaches include the generalized marginal linear model, the generalized linear mixed effects model and the Bayesian modelling approach. In addition to describing the aforementioned models, the paper also includes a brief overview of their implementation in the R software. The difficulty with the regression models adjusted for micro panel data is the ambiguity of their parameters estimation. This thesis proposes a way to improve the estimations through the cluster analysis. For this reason, the thesis also contains a description of methods of the cluster analysis of micro panel data. Because supply of the methods is limited, the main goal of this paper is to devise its own two-step approach for clustering micro panel data. In the first step, the panel data are transformed into a static form using a set of proposed characteristics of dynamics. These characteristics represent different features of time course of the observed variables. In the second step, the elements are clustered by conventional spatial clustering techniques (agglomerative clustering and the C-means partitioning). The clustering is based on a dissimilarity matrix of the values of clustering variables calculated in the first step. Another goal of this paper is to find out whether the suggested procedure leads to an improvement in quality of the regression models for this type of data. By means of a simulation study, the procedure drafted herein is compared to the procedure applied in the kml package of the R software, as well as to the clustering characteristics proposed by Urso (2004). The simulation study demonstrated better results of the proposed combination of clustering variables as compared to the other combinations currently used. A corresponding script written in the R-language represents another benefit of this paper. It is available on the attached CD and it can be used for analyses of readers own micro panel data.
Keywords: C-means clustering method; mixed effects model; regression analysis of micro panel data; clustering analysis of micro panel data; characteristics of dynamics; Wards clustering method

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 16. 2. 2010
Date of submission: 1. 11. 2016
Date of defense: 30. 1. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/24769/podrobnosti

Files for download

    Last update: