Extrakce strukturovaných dat z fotokopií historických dokumentů

Název práce: Extrakce strukturovaných dat z fotokopií historických dokumentů
Autor(ka) práce: Kabeš, Štěpán
Typ práce: Bakalářská práce
Vedoucí práce: Zouhar, Jan
Oponenti práce: Bruckner, Tomáš
Jazyk práce: Česky
Abstrakt:
Tato bakalářská práce se zabývá digitalizací strukturovaných historických dokumentů. Nejprve představuje obecné problémy, na které nástroje na převod textu narážejí, následně se zaměřuje na konkrétní příklad. Tímto příkladem jsou data ze sčítání lidu Československé republiky z let 1921 a 1930. Před praktickým příkladem práce vymezuje teoretický rámec digitalizace historických strukturovaných dokumentů. Zaměřuje se zejména na principy optického rozpoznávání znaků, analýzu rozvržení dokumentu a současné technologické možnosti v této oblasti. Rozlišuje přitom dvě klíčové fáze extrakce dat, konkrétně rozpoznání struktury dokumentu a samotné rozpoznání textových znaků. Toto vymezení následně slouží jako základ pro výběr testovaných nástrojů, tvorbu referenční datové sady a interpretaci dosažených výsledků. Prvním krokem při pokusu o digitalizaci datové sady bylo vytvořit referenční datovou sadu, na které se bude provádět vyhodnocení jednotlivých nástrojů optického rozpoznávání znaků. Následně bylo potřeba prozkoumat aktuální dostupné možnosti a vybrat konkrétní nástroje, na kterých se provedlo pilotní testování převodu dat do strojově zpracovatelné podoby. Při vybírání platforem a služeb se autor zaměřil na to, aby byly pokryty jak velké komerční, tak menší specializované služby z tohoto oboru. Ani výsledky nejpřesnějšího modelu z pilotního testování, které byly počítány pomocí metrik CER a WER, nebyly dostatečně uspokojivé. Proběhl tak další pokus o vylepšení výsledků pomocí automatizovaného procesu, který měl výstup z OCR opravit pomocí logických agregací, které vycházejí z datové struktury. Automatizovaný proces však narazil na nerobustnost low-code řešení. Diskuze se na základě těchto výsledků zabývá důvody proč nebyla extrakce úspěšná, jak by mohl probíhat další výzkum v oblasti digitalizace historických strukturovaných dokumentů. Zároveň také ukazuje a diskutuje příklad využití nástrojů OCR na jednodušších soudobých dokumentech.
Klíčová slova: Extrakce strukturovaných dat; analýza rozvržení dokumentu; OCR; optické rozpoznávání znaků; české historické dokumenty; sčítání lidu
Název práce: Extraction of Structured Data from Photocopies of Historical Documents
Autor(ka) práce: Kabeš, Štěpán
Typ práce: Bachelor thesis
Vedoucí práce: Zouhar, Jan
Oponenti práce: Bruckner, Tomáš
Jazyk práce: Česky
Abstrakt:
This bachelor’s thesis deals with the digitization of structured historical documents. It first describes the general challenges encountered by text conversion tools and then focuses on a specific case study. This case study consists of population census data from the Czechoslovak Republic from 1921 and 1930. Before the practical task, the thesis defines the theoretical framework for the digitization of historical structured documents. It focuses primarily on the principles of optical character recognition, document layout analysis, and current technological possibilities in this field. It distinguishes between two key phases of data extraction: the recognition of document structure and the recognition of textual characters themselves. This framework then serves as the basis for selecting the tested tools, creating the reference dataset, and interpreting the results obtained. The first step in the attempt to digitize the dataset was to create a reference dataset that could be used to evaluate individual optical character recognition tools. It was then necessary to examine the currently available options and select specific tools for pilot testing of data conversion into a machine-readable form. When selecting platforms and services, the author focused on ensuring that both large commercial and smaller specialized services in this field were covered. Even the results of the most accurate model from the pilot testing, calculated using CER and WER metrics, were not sufficiently satisfactory. Therefore, an additional attempt was made to improve the results using an automated process designed to correct the OCR output through logical aggregations based on the data structure. However, the automated process encountered the lack of robustness inherent in low-code solutions. Based on these results, the discussion addresses the reasons why the extraction was not successful and how further research in the field of digitizing structured historical documents could proceed. It also presents and discusses an example of using OCR tools on simpler contemporary documents.
Klíčová slova: optical character recognition; OCR; Czech historical documents; census; Extraction of structured data; layout analysis

Informace o studiu

Studijní program / obor: Data Analytics
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra ekonometrie

Informace o odevzdání a obhajobě

Datum zadání práce: 10. 12. 2025
Datum podání práce: 8. 5. 2026
Datum obhajoby: 16. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/94886/podrobnosti

Soubory ke stažení

    Poslední aktualizace: