Prediction in log-linear models with heterogeneous data

Thesis title: Predikce v log-lineárních modelech s heterogenními daty
Author: Martinová, Kristýna
Thesis type: Bakalářská práce
Supervisor: Zouhar, Jan
Opponents: Frýd, Lukáš
Thesis language: Česky
Abstract:
Logaritmická transformace vysvětlované proměnné je velmi používanou praktikou při odhadu lineárních regresních modelů. Často se používá například při práci se šikmě rozdělenými daty. Problematika spojená s log-lineárními modely spočívá ve faktu, že takový model sleduje hodnoty na jiné škále, než nás běžně výsledky zajímají. Pro získání predikcí na původní škále je proto po odhadu takového modelu nezbytná zpětná retransformace. Metody, které jsou běžně doporučovány v literatuře, předpokládají homoskedastickou náhodnou složku. Retransformace za přítomnosti heteroskedasticity je však důležitým tématem, jelikož s tímto problémem se běžně potýkáme v důlěžitých oblastech, jako je například zdravotnictví. Cílem práce je porovnat různé metody bodové a intervalové predikce hodnot závisle proměnné v log-lineárních modelech, přičemž důraz je kladen právě na práci s daty, která se svou povahou odchylují od ideálu náhodného vzorku z homogenní populace s homoskedastickou náhodnou složkou. Provedený experiment porovnává kvalitu predikcí získaných retransformací za použití korekčního faktoru předpokládajícího splnění předpokladů klasického lineárního modelu, smearing estimátoru, metody přizpůsobené heteroskedasticitě, kterou navrhl Baser, a modifikací této metody při různých formách heteroskedasticity a různých velikostech výběru. Dle výsledků experimentu lze říct, že celkově vzato poskytuje Baserova metoda kvalitnější predikce než ostatní testované metody, ačkoliv při složitější formě heteroskedasticity nefunguje příliš dobře při malých vzorcích. Ukazuje se také, že intervalová predikce není úplně spolehlivá, jelikož základní teorie je postavená na předpokladu homoskedasticity. I přesto jsou však výsledky zajímavé a zjišťujeme, že pro intervaly spolehlivosti střední podmíněné hodnoty y je možnost zlepšit úroveň pokrytí skutečných hodnot úpravou pomocí korekčního faktoru, ačkoliv v literatuře je volen jiný postup.
Keywords: metoda nejmenších čtverců; heteroskedasticita; náhodná složka; predikované hodnoty; log-lineární model
Thesis title: Prediction in log-linear models with heterogeneous data
Author: Martinová, Kristýna
Thesis type: Bachelor thesis
Supervisor: Zouhar, Jan
Opponents: Frýd, Lukáš
Thesis language: Česky
Abstract:
Logarithmic transformation of a dependent variable is a very common practice when estimating linear regression models. It is frequently used for example to deal with skewed outcome. The problems associated with log-linear models lies in the fact that such a model monitors values on a different scale than than the results of our interest. Therefore, retransformation is necessary to obtain predictions on the original scale. Methods usually recommended in the literature assume homoskedastic error. But retransformation with heteroskedasticity is in fact an important issue, because we often deal with it in important fields such as healthcare. The aim of this thesis is to compare different methods of point and interval prediction of the dependent variable with an emphasis on data that differ in nature from the ideal of a random sample from a homogeneous population with homoskedastic error. The experiment performed here compares the quality of predictions obtained by retransformation with naive estimate assuming the full set of classical linear model assumptions, smearing estimate, the heteroskedasticity adjusted method proposed by Baser and a modificatioin of this method under different forms of heteroskedasticity and different sample sizes. According to the results we can say that in general the methond proposed by Baser provides better quality predictions than the rest of the tested methods, although with more difficult forms of heteroskedasticity it does not work as well in small samples. Also it turns out that the interval prediction is not really reliable as the main theory is based on the assuption of homoskedasticity. Despite that, the results are still interesting and we find out that in the case of confidence intervals for conditional expected value of y, it is possible to increase the coverage by modification with correction factor, although another approach is chosen in the literature.
Keywords: ordinary least squares; error term; log-linear models; heteroskedasticity; predicted values

Information about study

Study programme: Kvantitativní metody v ekonomice/Matematické metody v ekonomii
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 10. 2. 2021
Date of submission: 10. 5. 2021
Date of defense: 23. 6. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/76183/podrobnosti

Files for download

    Last update: