Kvantifikace nejistoty v prediktivním modelování

Název práce: Kvantifikace nejistoty v prediktivním modelování
Autor(ka) práce: Li, Zakhar
Typ práce: Bakalářská práce
Vedoucí práce: Löster, Tomáš
Oponenti práce: Danko, Jakub
Jazyk práce: Česky
Abstrakt:
Tato práce se zabývá kvantifikací nejistoty v prediktivním modelování se zaměřením na konstrukci a hodnocení predikčních intervalů. Teoretická část vymezuje aleatorní a epistemickou nejistotu a systematicky porovnává čtyři přístupy: lineární regresní model, kvantilovou regresi, metodu Natural Gradient Boosting (NGBoost) a konformní predikci jako kalibrační vrstvu s garancí marginálního pokrytí. Pro jednotné empirické srovnání jsou zavedeny metriky empirického pokrytí intervalu (Prediction Interval Coverage Probability, PICP), průměrné šířky intervalu (Mean Prediction Interval Width, MPIW) a Winklerovo skóre, doplněné o odmocninu střední kvadratické chyby (Root Mean Squared Error, RMSE) a průměrnou absolutní chybu (Mean Absolute Error, MAE). Empirická část využívá Monte Carlo simulace ve třech syntetických scénářích zahrnujících homoskedasticitu, heteroskedasticitu, nelinearitu a extrapolaci mimo trénovací doménu. Výsledky ukazují, že konformní predikce v oblasti uvnitř trénovací domény zpravidla zlepšuje kalibraci intervalů, avšak nedokáže napravit chybný induktivní bias podkladového modelu. V použitých jednorozměrných syntetických simulacích se dále ukazuje, že stromové modely v extrapolaci za posledním splitem přecházejí na téměř konstantní predikci, což u NGBoostu a gradient boostingu s kvantilovou ztrátou vede k prudkému zhoršení Winklerova skóre. Provedené simulace tak naznačují, že spolehlivá kvantifikace nejistoty závisí nejen na kalibraci intervalu, ale i na schopnosti modelu extrapolovat bodovou predikci a udržet přiměřené intervalové chování mimo trénovací doménu.
Klíčová slova: kvantifikace nejistoty; predikční intervaly; konformní predikce; kvantilová regrese; NGBoost
Název práce: Uncertainty Quantification in Predictive Modelling
Autor(ka) práce: Li, Zakhar
Typ práce: Bachelor thesis
Vedoucí práce: Löster, Tomáš
Oponenti práce: Danko, Jakub
Jazyk práce: Česky
Abstrakt:
This thesis studies uncertainty quantification in predictive modelling with a focus on constructing and evaluating prediction intervals. The theoretical part distinguishes aleatoric and epistemic uncertainty and systematically compares four approaches: the linear regression model, quantile regression, the Natural Gradient Boosting method (NGBoost), and conformal prediction as a calibration layer with marginal coverage guarantees. For a unified empirical comparison, the thesis uses the Prediction Interval Coverage Probability (PICP), Mean Prediction Interval Width (MPIW), and the Winkler score, complemented by the Root Mean Squared Error (RMSE) and Mean Absolute Error (MAE). The empirical part relies on Monte Carlo simulations in three synthetic scenarios covering homoskedasticity, heteroskedasticity, nonlinearity, and extrapolation beyond the training domain. The results show that conformal prediction usually improves interval calibration inside the training domain, but it does not correct an incorrect inductive bias of the underlying model. In the one-dimensional synthetic simulations used here, tree-based models switch to an almost constant prediction beyond the last split, which causes a sharp deterioration of the Winkler score for NGBoost and quantile-loss gradient boosting. The simulations therefore suggest that reliable interval uncertainty depends not only on calibration, but also on the model's ability to extrapolate the point prediction and maintain adequate interval behaviour beyond the training domain.
Klíčová slova: conformal prediction; quantile regression; NGBoost; uncertainty quantification; prediction intervals

Informace o studiu

Studijní program / obor: Matematické metody v ekonomii/Datové analýzy a modelování
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 23. 9. 2025
Datum podání práce: 10. 5. 2026
Datum obhajoby: 11. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/93527/podrobnosti

Soubory ke stažení

    Poslední aktualizace: