Solving the problem of missing observations in a generalized linear model
Thesis title: | Řešení problému chybějících pozorování v zobecněném lineárním modelu |
---|---|
Author: | Beranová, Alžběta |
Thesis type: | Bakalářská práce |
Supervisor: | Malá, Ivana |
Opponents: | Procházka, Jiří |
Thesis language: | Česky |
Abstract: | Bakalářská práce se zabývá problémem chybějících pozorování a možností jejich imputace v případě použití zobecněného lineární modelu. V teoretické části práce jsou popsány jednotlivé metody, které byly vytvořeny k řešení daného problému chybějících pozorování, a dále je zde obecně popsána logistická regrese, tedy zobecněný lineární model s binomickým rozdělením a logitovou spojovací funkcí. Empirická část je zaměřena na porovnání modelu vypočteného z dat bez chybějících pozorování s modely vypočtenými z dat s chybějícími daty nahrazenými dle jednotlivých imputačních metod. Modely jsou odhadovány v programovacím jazyce R. K modelování je použito veřejně dostupných reálných dat marketingové kampaně portugalské bankovní instituce. |
Keywords: | AUC; GLM; chybějící hodnoty; imputace; logistická regrese; matice záměn; ROC křivka |
Thesis title: | Solving the problem of missing observations in a generalized linear model |
---|---|
Author: | Beranová, Alžběta |
Thesis type: | Bachelor thesis |
Supervisor: | Malá, Ivana |
Opponents: | Procházka, Jiří |
Thesis language: | Česky |
Abstract: | The bachelor thesis deals with the problem of missing observations and the possibility of their imputation in case of using a generalized linear model. In the theoretical part of the thesis, there are described the individual methods that were created to solve the given problem of missing observations, and there is generally described logistic regression, i.e. a generalized linear model with a binomial distribution and logit link function. The empirical part is focused on comparing the model calculated from data without missing observations with models calculated from data with missing data replaced by individual imputation methods. Models are calculated in R programming language. Publicly available data from real marketing campaign of the Portuguese banking institution has been used in models. |
Keywords: | AUC; confusion matrix; GLM; imputation; logistic regression; missing values; ROC curve |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika a ekonometrie |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 10. 12. 2018 |
---|---|
Date of submission: | 27. 6. 2019 |
Date of defense: | 22. 8. 2019 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/68010/podrobnosti |