Příprava datové sady územního rozmístění firem v ČR
Autor(ka) práce:
Rehanzl, Jan
Typ práce:
Bakalářská práce
Vedoucí práce:
Mazouch, Petr
Oponenti práce:
Černý, Jan
Jazyk práce:
Česky
Abstrakt:
Tato bakalářská práce se zabývá návrhem metodického postupu pro tvorbu datové sady, která zachycuje územní rozmístění firem v České republice, včetně jejich provozoven a poboček. Vychází ze skutečnosti, že veřejně dostupné registry, jako je ARES, RŽP či NRPZS, sice poskytují informace o ekonomických subjektech, avšak často pouze na úrovni jejich formálních sídel. Cílem práce je identifikovat dostupné zdroje dat, analyzovat jejich kvalitu a přínos z hlediska lokalizační přesnosti a navrhnout procesní rámec, který umožní tato data efektivně sbírat, integrovat, čistit a validovat. V práci jsou hodnoceny jak standardní veřejné registry, tak alternativní zdroje včetně komerčních databází a techniky web scrapingu zaměřeného na firemní webové stránky. Výsledkem je podrobný popis sedmistupňového procesu, jenž zahrnuje sestavení datové kostry, obohacení o provozovny, konsolidaci údajů a jejich dokumentaci. Práce zároveň upozorňuje na limity současných zdrojů, technická omezení přístupu k datům a výzvy spojené s jejich aktualizací. Výstupem je metodický rámec využitelný pro budoucí vývoj komplexní datové sady o geografické přítomnosti firem v ČR.
Preparation of the dataset of territorial distribution of companies in the Czech Republic
Autor(ka) práce:
Rehanzl, Jan
Typ práce:
Bachelor thesis
Vedoucí práce:
Mazouch, Petr
Oponenti práce:
Černý, Jan
Jazyk práce:
Česky
Abstrakt:
This bachelor thesis deals with the design of a methodological procedure for the creation of a dataset that captures the spatial distribution of firms in the Czech Republic, including their establishments and branches. It is based on the fact that publicly available registers, such as ARES, RŽP or NRPZS, provide information on economic entities, but often only at the level of their formal headquarters. The aim of this paper is to identify the available data sources, analyse their quality and contribution in terms of locational accuracy, and propose a process framework that will allow these data to be efficiently collected, integrated, cleaned and validated. The work evaluates standard public registries as well as alternative sources including commercial databases and web scraping techniques focused on corporate websites. The result is a detailed description of a seven-step process that includes building a data skeleton, enriching it with traffic, consolidating the data, and documenting it. The work also highlights the limitations of current resources, the technical constraints of accessing the data, and the challenges associated with updating the data. The output is a methodological framework usable for future development of a comprehensive dataset on the geographical presence of companies in the Czech Republic.
Klíčová slova:
spatial distribution of companies; establishments; open data; ARES; RŽP; NRPZS; CSU; commercial databases; API; web scraping; data integration; data quality; data skeleton; data set