Aproximace agregovaných dat na nižší úrovně

Název práce: Approximation of measures to lower granularities
Autor(ka) práce: Landsmann, Jiří
Typ práce: Diploma thesis
Vedoucí práce: Máša, Petr
Oponenti práce: Bakuncová, Karolína
Jazyk práce: English
Abstrakt:
Disaggregating socio-economic indicators from coarse regional aggregates to finer spatial units is a recurring challenge in public policy and statistical analysis. While traditional methods such as areal interpolation and regression assume full supervision or spatial continuity, they fall short when fine-grained ground truth is unavailable. This thesis proposes a modular, simulation-based pipeline for approximating fine-resolution values from coarse inputs using auxiliary features. The method combines unsupervised clustering, simulation of district-level targets consistent with known regional aggregates, and supervised learning on the synthetic data. It is designed to generalize across different indicators and domains. The pipeline is evaluated on two tasks: unemployment prediction and education level estimation at the district level in the Czech Republic. Using voting data and household structure as auxiliary inputs, the method consistently outperforms strong baselines and reproduces intra-regional variation more faithfully than models trained directly on coarse labels. The results demonstrate that meaningful disaggregation is possible even under partial supervision, offering a scalable solution for real-world deployment in data-scarce environments.
Klíčová slova: data disaggregation; machine learning; unemployment; simulation; clustering; education level
Název práce: Aproximace agregovaných dat na nižší úrovně
Autor(ka) práce: Landsmann, Jiří
Typ práce: Diplomová práce
Vedoucí práce: Máša, Petr
Oponenti práce: Bakuncová, Karolína
Jazyk práce: English
Abstrakt:
Disagregace socioekonomických ukazatelů z hrubých regionálních agregátů na jemnější úroveň území představuje opakovaný problém ve veřejné správě i statistické analýze. Tradiční metody, jako je spatial interpolation nebo regresní modely, předpokládají úplnou znalost cílových hodnot nebo prostorovou spojitost, což v praxi často neplatí. Tato práce navrhuje modulární pipeline založenou na simulaci, která umožňuje přibližování jemnozrnných hodnot z agregovaných vstupů za použití pomocných proměnných. Navržený přístup kombinuje neřízené shlukování, simulaci okresních hodnot v souladu s krajskými průměry a učení s učitelem nad syntetickými daty. Metoda je koncipována tak, aby byla použitelná napříč různými indikátory a datovými sadami. Pipeline je testována na dvou úlohách: predikci nezaměstnanosti a odhadu podílu vysokoškolsky vzdělané populace na úrovni okresů v České republice. Pomocí dat o domácnostech a volebních výsledcích jako pomocných vstupů dosahuje metoda lepších výsledků než silné baseline modely a lépe vystihuje vnitroregionální rozdíly. Výsledky ukazují, že smysluplná disagregace je možná i bez dostupnosti cílových hodnot na nižší úrovni, a nabízejí tak škálovatelný přístup vhodný pro praktické využití v prostředí s omezenými daty.
Klíčová slova: disagregace dat; simulace; shlukování; úroveň vzdělání; strojové učení,; nezaměstnanost

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 3. 2024
Datum podání práce: 30. 11. 2025
Datum obhajoby: 19. 1. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/87868/podrobnosti

Soubory ke stažení

    Poslední aktualizace: