Hromadná extrakce dat veřejné správy do RDF
Název práce: | Hromadná extrakce dat veřejné správy do RDF |
---|---|
Autor(ka) práce: | Pomykacz, Michal |
Typ práce: | Diplomová práce |
Vedoucí práce: | Svátek, Vojtěch |
Oponenti práce: | Mynarz, Jindřich |
Jazyk práce: | Česky |
Abstrakt: | Předložená diplomová práce se zabývá úlohou extrakce českých veřejných zakázek a extrakce číselníků a klasifikací, doplňujících informace k veřejným zakázkám. Cílem práce je realizovat pravidelnou extrakci zmíněných dat z formátů (HTML, XML a XSL), transformovat je do formátu RDF a zpřístupnit je ve formě Linked Data pomocí SPARQL koncového bodu. K dosažení cíle je třeba navrhnout a implementovat extrakční nástroje určené jako moduly pro nástroj UnifiedViews, ve kterém jsou pravidelné extrakce realizovány. V teoretické části práce jsou nejprve vysvětleny principy propojených dat, poté jsou představeny klíčové nástroje, které jsou pro pravidelnou extrakci RDF dat a jejich zpřístupnění využity. Praktická část práce se zabývá návrhem a implementací extraktorů. Součástí popisu implementace extraktorů je vysvětlení způsobů extrakcí dat pro různé formáty datasetů a jejich převedení do RDF formátu. V závěru práce je zhodnocena úspěšnost jednotlivých extrakcí a uvažována využitelnost výsledků práce v praxi. |
Klíčová slova: | RDF; extrakce informací; české veřejné zakázky; Linked Data |
Název práce: | Bulk extraction of public administration data to RDF |
---|---|
Autor(ka) práce: | Pomykacz, Michal |
Typ práce: | Diploma thesis |
Vedoucí práce: | Svátek, Vojtěch |
Oponenti práce: | Mynarz, Jindřich |
Jazyk práce: | Česky |
Abstrakt: | The purpose of this work was to deal with data extraction from various formats (HTML, XML, XLS) and transformation for further processing. As the data sources were used Czech public contracts and related code lists and classifications. Main goal was to implement periodic data extraction, RDF transformation and publishing the output in form of Linked Data using SPARQL endpoint. It was necessary to design and implement extraction modules for UnifiedViews tool as it was used for periodic extractions. Theoretical section of this thesis explains the principles of linked data and key tools used for data extraction and manipulation. Practical section deals with extractors design and implementation. Part describing extractor implementation shows methods for parsing data in various dataset formats and its transformation to RDF. The success of each extractor implementation is presented at the conclusion along with thought of usability in a real world. |
Klíčová slova: | information extraction; RDF; czech public contracts; linked data |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 22. 1. 2013 |
---|---|
Datum podání práce: | 7. 5. 2014 |
Datum obhajoby: | 10. 6. 2014 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/41050/podrobnosti |