Simulation Study of Methods for Selecting Explanatory Variables in Linear Regression Models

Thesis title: Simulační studie metod pro výběr vysvětlujících proměnných u lineárního regresního modelu
Author: Merkulova, Irina
Thesis type: Bakalářská práce
Supervisor: Štěpánek, Lubomír
Opponents: -
Thesis language: Česky
Abstract:
Bakalářská práce se zabývá srovnáním metod pro výběr vysvětlujících proměnných do regresního modelu. Součástí práce je představení teoretických základů lineární regrese a metod pro výběr proměnných. Konkrétně se práce zaměřuje na postupnou regresi s využitím informačních kritérií, F-testů a PRESS statistiky pro volbu proměnných. V praktické části je navržena Monte Carlo (MC) simulace pro studium kvality metod společné s kritérii pro hodnocení. MC simulace je následně implementována v jazyce R v podobě frameworku, který umožňuje jednoduše zkoumat metody dostupné v balíčcích jazyka R. S využitím frameworku je následně zkoumána postupná regrese s obousměrnou eliminací založenou na Akaikeho informačním kritériu, Bayesovském informační kritériu a PRESS statistice, a postupná regrese se zpětnou eliminací založenou na F-testech. Simulace se v jednotlivých scénářích zaměřuje na vliv síly závislosti, velikosti výběru, počtu regresorů a stupně multikolinearity na schopnost metod správně vybrat relevantní proměnné. Z výsledků neplyne jednoznačný závěr o nadřazenosti jedné z metod, zdá se však, že Bayesovské informační kritérium dosahuje uspokojivých výsledků napříč zkoumanými scénáři. S využitím vytvořeného simulačního frameworku lze jednoduše zkoumat další scénáře, případně s minimálním úsilím přidat metody nové.
Keywords: Výběr proměnných; Monte Carlo simulace; Lineární regrese; Akaikeho informační kritérium (AIC); Bayesovské infromační kritérium (BIC); F-test; PRESS; Postupná regrese; Dopředná eliminace; Zpětná eliminace; Obousměrná eliminace
Thesis title: Simulation Study of Methods for Selecting Explanatory Variables in Linear Regression Models
Author: Merkulova, Irina
Thesis type: Bachelor thesis
Supervisor: Štěpánek, Lubomír
Opponents: -
Thesis language: Česky
Abstract:
This bachelor thesis compares methods for exploratory variable selection in regression models. The first half of the thesis introduces theoretical foundation of linear regression and variable selection methods, using, in particular, information criteria, F-tests and PRESS statistics. In the second practical half, a Monte Carlo (MC) simulation for evaluating quality of methods is proposed. The Monte Carlo simulation is then implemented in R as a framework that allows to easily study and evaluate methods available in language R. Using the framework algorithms of two-way elimination with Akaike information criterion (AIC), Bayesian information criterion (BIC) and PRESS statistic, and backward elimination with R-tests is evaluated. The simulation studies performance under consideration of various characteristics of datasets including various strength of dependence, sample sizes, number of regressors and multicollinearity. The results do not show superiority of one of the methods. However, it seems that BIC performs well across scenarios. The framework can be easily extended with new scenarios and new methods for evaluation.
Keywords: Backward elimination; Monte Carlo simulation; Linear regression; Akaike information criterion (AIC); Bayesian information criterion (BIC); F-test; PRESS; Step-wise regression; Forward elimination; Both-way elimination; Variable selection

Information about study

Study programme: Matematické metody v ekonomii/Datové analýzy a modelování
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 4. 2. 2024
Date of submission: 27. 6. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: