Linking data from Czech versions of DBpedia and Wikidata data sources

Thesis title: Propojení dat z českých verzí datových zdrojů DBpedie a Wikidata
Author: Zhouf, Jan
Thesis type: Diplomová práce
Supervisor: Svátek, Vojtěch
Opponents: Dojčinovski, Milan
Thesis language: Česky
Hlavním cílem práce bylo vytvořit prototyp, který propojí české verze datových zdrojů DBpedie a Wikidat. Nejdříve autor sestavil hloubkovou analýzu současného stavu obou datasetů se zaměřením na českou verzi a porovnal vybraná softwarová řešení. Pro každé vybrané řešení hodnotil zvolené informace k párování, kvalitu výstupu, náročnost zpracování výstupního formátu, relevantnost obsahu výstupu, možnost využít existující výstupy a náročnost využití softwaru. Největší problém byl s posledním kritériem – jak náročné je použít daný software. Totiž žádné z analyzovaných softwarových řešení nemělo dostatečně kvalitní dokumentaci, aby autor dokázal prototyp postavit nad jedním z nich. Autor tedy sestavil vlastní řešení na zelené louce. Řešení je nejenom inspirované z analyzovaných řešení, ale také využívá artefakt vytvořený v rámci článku Wikidata through the Eyes of DBpedia. Daný artefakt obsahuje propojené zdroje, které jsou většinou na místě subjektu v tripletech datasetu, který se skládá ze 140 jazykových mutací DBpedie a Wikidat. Avšak právě nikde není dostupné propojení pro zdroje, které se většinou objevují na místě predikátu (vlastnosti) a objektu (hodnoty vlastností). Softwarové řešení vyvinuté v rámci této práce je složeno z dvou částí. První z nich slouží k samotnému propojení – slučovací komponenta. Druhá část poté k prezentaci daného řešení – prezentační komponenta. Prezentační komponentu slouží k prohlížení propojený dat, jenž lze nalézt na stránce Data jsou zde zobrazena do jednotlivých HTML stránek, kde každá stránka odpovídá konkrétní stránce na Wikipedii. Kvalitu propojení autor měřil pomocí anotátorů. Předložil 4 anotátorů celkově 153 informací, kde vznikli propojením obou datasetů. A anotátoři měli za úkol určit, jestli algoritmus prototypu vybral informaci, která odpovídá realitě. Úspěšnost algoritmu byla 81,4 procent.
Keywords: Česká BDpedie; Česká Wikidata; Wikipedia; propojená data
The main goal of this thesis was to create a prototype that was to interconnect Czech versions of data sources called DBpedia and Wikidata. First, the author analysed the current state of both datasets with a focus on the Czech versions and compared selected software solutions. For each of the solutions, he evaluated metadata used for interconnection, the quality of the output, the output format, the relevance of results, the easiness to use existing outputs and finally the difficulty of using the software. The largest problem was with the last criterion - how difficult it is to use the software. Namely, none of the analysed software solutions had enough quality documentation to be able to be used for the prototype. Therefore, the author compiled his own solution on a. The solution is not only inspired by the analysed solutions, but also there was used the artefact created within the article Wikidata through the Eyes of DBpedia. The artefact contains interconnected resources, which are usually in place of the subject in the triplet in the dataset of 140 language mutations of DBpedia and Wikidata. However, there were not available interconnections for resources, which usually appear in place of a predicate (property) and an object (property value). The software solution developed in this thesis consisted of two parts. The first part was used for the interconnections itself - the merging component. The second part followed with presenting the solution - presentation component. The presentation component is used to view the linked data, which can be found at The data is displayed in individual HTML pages, where each page corresponds to a specific page on Wikipedia. The author measured the quality of the connection using annotators. He hired 4 annotators. Each of them was judging 153 information, which were created by connecting both datasets. And the annotators were tasked with determining whether the prototype's algorithm had selected information that matched reality in Wikipedia. The success rate of the algorithm was 81,4 percent.
Keywords: Czech BDpedia; Czech Wikidata; Wikipedia; Linked Data

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 31. 10. 2019
Date of submission: 24. 6. 2021
Date of defense: 6. 10. 2021
Identifier in the InSIS system:

