Simulation Study of Methods for Selecting Explanatory Variables in Linear Regression Models
Thesis title: | Simulační studie metod pro výběr vysvětlujících proměnných u lineárního regresního modelu |
---|---|
Author: | Merkulova, Irina |
Thesis type: | Bakalářská práce |
Supervisor: | Štěpánek, Lubomír |
Opponents: | Malá, Ivana |
Thesis language: | Česky |
Abstract: | Bakalářská práce se zabývá srovnáním metod pro výběr vysvětlujících proměnných do regresního modelu. Součástí práce je představení teoretických základů lineární regrese a metod pro výběr proměnných. Konkrétně se práce zaměřuje na postupnou regresi s využitím informačních kritérií, F-testů a PRESS statistiky pro volbu proměnných. V praktické části je navržena Monte Carlo (MC) simulace pro studium kvality metod společné s kritérii pro hodnocení. MC simulace je následně implementována v jazyce R v podobě frameworku, který umožňuje jednoduše zkoumat metody dostupné v balíčcích jazyka R. S využitím frameworku je následně zkoumána postupná regrese s obousměrnou eliminací založenou na Akaikeho informačním kritériu, Bayesovském informační kritériu a PRESS statistice, a postupná regrese se zpětnou eliminací založenou na F-testech. Simulace se v jednotlivých scénářích zaměřuje na vliv síly závislosti, velikosti výběru, počtu regresorů a stupně multikolinearity na schopnost metod správně vybrat relevantní proměnné. Z výsledků neplyne jednoznačný závěr o nadřazenosti jedné z metod, zdá se však, že Bayesovské informační kritérium dosahuje uspokojivých výsledků napříč zkoumanými scénáři. S využitím vytvořeného simulačního frameworku lze jednoduše zkoumat další scénáře, případně s minimálním úsilím přidat metody nové. |
Keywords: | Výběr proměnných; Monte Carlo simulace; Lineární regrese; Akaikeho informační kritérium (AIC); Bayesovské infromační kritérium (BIC); F-test; PRESS; Postupná regrese; Dopředná eliminace; Zpětná eliminace; Obousměrná eliminace |
Thesis title: | Simulation Study of Methods for Selecting Explanatory Variables in Linear Regression Models |
---|---|
Author: | Merkulova, Irina |
Thesis type: | Bachelor thesis |
Supervisor: | Štěpánek, Lubomír |
Opponents: | Malá, Ivana |
Thesis language: | Česky |
Abstract: | This bachelor thesis compares methods for exploratory variable selection in regression models. The first half of the thesis introduces theoretical foundation of linear regression and variable selection methods, using, in particular, information criteria, F-tests and PRESS statistics. In the second practical half, a Monte Carlo (MC) simulation for evaluating quality of methods is proposed. The Monte Carlo simulation is then implemented in R as a framework that allows to easily study and evaluate methods available in language R. Using the framework algorithms of two-way elimination with Akaike information criterion (AIC), Bayesian information criterion (BIC) and PRESS statistic, and backward elimination with R-tests is evaluated. The simulation studies performance under consideration of various characteristics of datasets including various strength of dependence, sample sizes, number of regressors and multicollinearity. The results do not show superiority of one of the methods. However, it seems that BIC performs well across scenarios. The framework can be easily extended with new scenarios and new methods for evaluation. |
Keywords: | Backward elimination; Monte Carlo simulation; Linear regression; Akaike information criterion (AIC); Bayesian information criterion (BIC); F-test; PRESS; Step-wise regression; Forward elimination; Both-way elimination; Variable selection |
Information about study
Study programme: | Matematické metody v ekonomii/Datové analýzy a modelování |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 4. 2. 2024 |
---|---|
Date of submission: | 27. 6. 2024 |
Date of defense: | 19. 8. 2024 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/87347/podrobnosti |