Predikce v log-lineárních modelech s heterogenními daty
Název práce: | Predikce v log-lineárních modelech s heterogenními daty |
---|---|
Autor(ka) práce: | Martinová, Kristýna |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Zouhar, Jan |
Oponenti práce: | Frýd, Lukáš |
Jazyk práce: | Česky |
Abstrakt: | Logaritmická transformace vysvětlované proměnné je velmi používanou praktikou při odhadu lineárních regresních modelů. Často se používá například při práci se šikmě rozdělenými daty. Problematika spojená s log-lineárními modely spočívá ve faktu, že takový model sleduje hodnoty na jiné škále, než nás běžně výsledky zajímají. Pro získání predikcí na původní škále je proto po odhadu takového modelu nezbytná zpětná retransformace. Metody, které jsou běžně doporučovány v literatuře, předpokládají homoskedastickou náhodnou složku. Retransformace za přítomnosti heteroskedasticity je však důležitým tématem, jelikož s tímto problémem se běžně potýkáme v důlěžitých oblastech, jako je například zdravotnictví. Cílem práce je porovnat různé metody bodové a intervalové predikce hodnot závisle proměnné v log-lineárních modelech, přičemž důraz je kladen právě na práci s daty, která se svou povahou odchylují od ideálu náhodného vzorku z homogenní populace s homoskedastickou náhodnou složkou. Provedený experiment porovnává kvalitu predikcí získaných retransformací za použití korekčního faktoru předpokládajícího splnění předpokladů klasického lineárního modelu, smearing estimátoru, metody přizpůsobené heteroskedasticitě, kterou navrhl Baser, a modifikací této metody při různých formách heteroskedasticity a různých velikostech výběru. Dle výsledků experimentu lze říct, že celkově vzato poskytuje Baserova metoda kvalitnější predikce než ostatní testované metody, ačkoliv při složitější formě heteroskedasticity nefunguje příliš dobře při malých vzorcích. Ukazuje se také, že intervalová predikce není úplně spolehlivá, jelikož základní teorie je postavená na předpokladu homoskedasticity. I přesto jsou však výsledky zajímavé a zjišťujeme, že pro intervaly spolehlivosti střední podmíněné hodnoty y je možnost zlepšit úroveň pokrytí skutečných hodnot úpravou pomocí korekčního faktoru, ačkoliv v literatuře je volen jiný postup. |
Klíčová slova: | metoda nejmenších čtverců; heteroskedasticita; náhodná složka; predikované hodnoty; log-lineární model |
Název práce: | Prediction in log-linear models with heterogeneous data |
---|---|
Autor(ka) práce: | Martinová, Kristýna |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Zouhar, Jan |
Oponenti práce: | Frýd, Lukáš |
Jazyk práce: | Česky |
Abstrakt: | Logarithmic transformation of a dependent variable is a very common practice when estimating linear regression models. It is frequently used for example to deal with skewed outcome. The problems associated with log-linear models lies in the fact that such a model monitors values on a different scale than than the results of our interest. Therefore, retransformation is necessary to obtain predictions on the original scale. Methods usually recommended in the literature assume homoskedastic error. But retransformation with heteroskedasticity is in fact an important issue, because we often deal with it in important fields such as healthcare. The aim of this thesis is to compare different methods of point and interval prediction of the dependent variable with an emphasis on data that differ in nature from the ideal of a random sample from a homogeneous population with homoskedastic error. The experiment performed here compares the quality of predictions obtained by retransformation with naive estimate assuming the full set of classical linear model assumptions, smearing estimate, the heteroskedasticity adjusted method proposed by Baser and a modificatioin of this method under different forms of heteroskedasticity and different sample sizes. According to the results we can say that in general the methond proposed by Baser provides better quality predictions than the rest of the tested methods, although with more difficult forms of heteroskedasticity it does not work as well in small samples. Also it turns out that the interval prediction is not really reliable as the main theory is based on the assuption of homoskedasticity. Despite that, the results are still interesting and we find out that in the case of confidence intervals for conditional expected value of y, it is possible to increase the coverage by modification with correction factor, although another approach is chosen in the literature. |
Klíčová slova: | ordinary least squares; error term; log-linear models; heteroskedasticity; predicted values |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Matematické metody v ekonomii |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonometrie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 10. 2. 2021 |
---|---|
Datum podání práce: | 10. 5. 2021 |
Datum obhajoby: | 23. 6. 2021 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/76183/podrobnosti |