Modularizace extrakce dat o veřejných zakázkách do RDF
Název práce: | Modularizace extrakce dat o veřejných zakázkách do RDF |
---|---|
Autor(ka) práce: | Káňa, Jakub |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Mynarz, Jindřich |
Oponenti práce: | Dudáš, Marek |
Jazyk práce: | Česky |
Abstrakt: | Bakalářská práce se zabývá rozšířením extraktoru dat o veřejných zakázkách získaných ze serveru Tenders Electronic Daily. Tato práce pokrývá v modularizovaném extraktoru dalších 10 typů oznámení o veřejných zakázkách. Data jsou z XML souborů pomocí transformace převáděny do formátu RDF/XML. Rozšíření je realizováno pro formáty publikovaných dat TED-XML a META-XML. Práce dále rozšiřuje a osamostatňuje knihovny funkcí. Nově vytvořená knihovna funkcí je v práci zdokumentována. Pro zajištění správnosti extrahovaných dat z hlediska syntaxe a také použité ontologie jsou použity validační nástroje. Pro validaci syntaxe RDF/XML je použit nástroj Apache Jena Riot a pro testování správnosti výstupů z hlediska použití Public Contracts Ontology nástroj RDFUnit. Přínosem této práce je praktická část, která umožňuje převádět data z věstníku veřejných zakázek členských států EU do formátu RDF/XML. Vytvořené rozšíření umožňuje extrahovat data z oznámení typu F04 - F09 a F15 - F18. |
Klíčová slova: | veřejné zakázky; ontologie; XSLT; RDF/XML; data; extrakce; Linked Data |
Název práce: | Modularization of extraction of public procurement data to RDF |
---|---|
Autor(ka) práce: | Káňa, Jakub |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Mynarz, Jindřich |
Oponenti práce: | Dudáš, Marek |
Jazyk práce: | Česky |
Abstrakt: | The bachelor thesis deals with extension of data extractor of public contracts gained from server Tenders Electronic Daily. The thesis covers a modularized extractor 10 new types of public contract notices. The data is retrieved from XML by using transformation scenario and they are extracted to RDF/XML data format. The extension is realized on TED-XML and META-XML formats of published data. The work also expands and creates independent library of functions. The library is documented. To ensure the accuracy of the extracted data in terms of syntax and also used ontologies there are used validation tools. For command line syntax validation Jena Apache Riot and for testing the correctness of output in terms of use Public Contracts Ontology RDFUnit testing tool. The contribution of this work is the practical part, allowing you to convert semi-structured data from the Journal of procurement of EU Member States into a fully structured data. Enhanced extractor allows you to extract data from the notices type F04 - F09 and F15 - F18. |
Klíčová slova: | ontology; extraction; Linked Data; public procurement; RDF/XML; data; XSLT |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 15. 12. 2014 |
---|---|
Datum podání práce: | 1. 5. 2015 |
Datum obhajoby: | 23. 6. 2015 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/43655/podrobnosti |