Preparation of the dataset of territorial distribution of companies in the Czech Republic

Thesis title: Příprava datové sady územního rozmístění firem v ČR
Author: Rehanzl, Jan
Thesis type: Bakalářská práce
Supervisor: Mazouch, Petr
Opponents: Černý, Jan
Thesis language: Česky
Abstract:
Tato bakalářská práce se zabývá návrhem metodického postupu pro tvorbu datové sady, která zachycuje územní rozmístění firem v České republice, včetně jejich provozoven a poboček. Vychází ze skutečnosti, že veřejně dostupné registry, jako je ARES, RŽP či NRPZS, sice poskytují informace o ekonomických subjektech, avšak často pouze na úrovni jejich formálních sídel. Cílem práce je identifikovat dostupné zdroje dat, analyzovat jejich kvalitu a přínos z hlediska lokalizační přesnosti a navrhnout procesní rámec, který umožní tato data efektivně sbírat, integrovat, čistit a validovat. V práci jsou hodnoceny jak standardní veřejné registry, tak alternativní zdroje včetně komerčních databází a techniky web scrapingu zaměřeného na firemní webové stránky. Výsledkem je podrobný popis sedmistupňového procesu, jenž zahrnuje sestavení datové kostry, obohacení o provozovny, konsolidaci údajů a jejich dokumentaci. Práce zároveň upozorňuje na limity současných zdrojů, technická omezení přístupu k datům a výzvy spojené s jejich aktualizací. Výstupem je metodický rámec využitelný pro budoucí vývoj komplexní datové sady o geografické přítomnosti firem v ČR.
Keywords: API; web scraping; provozovny; kvalita dat; komerční databáze; datová sada; otevřená data; ARES; územní rozmístění firem; RŽP; NRPZS; ČSÚ; datová integrace; datová kostra
Thesis title: Preparation of the dataset of territorial distribution of companies in the Czech Republic
Author: Rehanzl, Jan
Thesis type: Bachelor thesis
Supervisor: Mazouch, Petr
Opponents: Černý, Jan
Thesis language: Česky
Abstract:
This bachelor thesis deals with the design of a methodological procedure for the creation of a dataset that captures the spatial distribution of firms in the Czech Republic, including their establishments and branches. It is based on the fact that publicly available registers, such as ARES, RŽP or NRPZS, provide information on economic entities, but often only at the level of their formal headquarters. The aim of this paper is to identify the available data sources, analyse their quality and contribution in terms of locational accuracy, and propose a process framework that will allow these data to be efficiently collected, integrated, cleaned and validated. The work evaluates standard public registries as well as alternative sources including commercial databases and web scraping techniques focused on corporate websites. The result is a detailed description of a seven-step process that includes building a data skeleton, enriching it with traffic, consolidating the data, and documenting it. The work also highlights the limitations of current resources, the technical constraints of accessing the data, and the challenges associated with updating the data. The output is a methodological framework usable for future development of a comprehensive dataset on the geographical presence of companies in the Czech Republic.
Keywords: spatial distribution of companies; establishments; open data; ARES; RŽP; NRPZS; CSU; commercial databases; API; web scraping; data integration; data quality; data skeleton; data set

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Economic Statistics

Information on submission and defense

Date of assignment: 8. 4. 2025
Date of submission: 12. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: