Modularization of extraction of public procurement data to RDF
Thesis title: | Modularizace extrakce dat o veřejných zakázkách do RDF |
---|---|
Author: | Káňa, Jakub |
Thesis type: | Bakalářská práce |
Supervisor: | Mynarz, Jindřich |
Opponents: | Dudáš, Marek |
Thesis language: | Česky |
Abstract: | Bakalářská práce se zabývá rozšířením extraktoru dat o veřejných zakázkách získaných ze serveru Tenders Electronic Daily. Tato práce pokrývá v modularizovaném extraktoru dalších 10 typů oznámení o veřejných zakázkách. Data jsou z XML souborů pomocí transformace převáděny do formátu RDF/XML. Rozšíření je realizováno pro formáty publikovaných dat TED-XML a META-XML. Práce dále rozšiřuje a osamostatňuje knihovny funkcí. Nově vytvořená knihovna funkcí je v práci zdokumentována. Pro zajištění správnosti extrahovaných dat z hlediska syntaxe a také použité ontologie jsou použity validační nástroje. Pro validaci syntaxe RDF/XML je použit nástroj Apache Jena Riot a pro testování správnosti výstupů z hlediska použití Public Contracts Ontology nástroj RDFUnit. Přínosem této práce je praktická část, která umožňuje převádět data z věstníku veřejných zakázek členských států EU do formátu RDF/XML. Vytvořené rozšíření umožňuje extrahovat data z oznámení typu F04 - F09 a F15 - F18. |
Keywords: | veřejné zakázky; ontologie; XSLT; RDF/XML; data; extrakce; Linked Data |
Thesis title: | Modularization of extraction of public procurement data to RDF |
---|---|
Author: | Káňa, Jakub |
Thesis type: | Bachelor thesis |
Supervisor: | Mynarz, Jindřich |
Opponents: | Dudáš, Marek |
Thesis language: | Česky |
Abstract: | The bachelor thesis deals with extension of data extractor of public contracts gained from server Tenders Electronic Daily. The thesis covers a modularized extractor 10 new types of public contract notices. The data is retrieved from XML by using transformation scenario and they are extracted to RDF/XML data format. The extension is realized on TED-XML and META-XML formats of published data. The work also expands and creates independent library of functions. The library is documented. To ensure the accuracy of the extracted data in terms of syntax and also used ontologies there are used validation tools. For command line syntax validation Jena Apache Riot and for testing the correctness of output in terms of use Public Contracts Ontology RDFUnit testing tool. The contribution of this work is the practical part, allowing you to convert semi-structured data from the Journal of procurement of EU Member States into a fully structured data. Enhanced extractor allows you to extract data from the notices type F04 - F09 and F15 - F18. |
Keywords: | ontology; extraction; Linked Data; public procurement; RDF/XML; data; XSLT |
Information about study
Study programme: | Aplikovaná informatika/Informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 15. 12. 2014 |
---|---|
Date of submission: | 1. 5. 2015 |
Date of defense: | 23. 6. 2015 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/43655/podrobnosti |