Thesis title: DBpedia linkage analysis leveraging on entity semantics
Author: Fuchs, David
Thesis type: Diploma thesis
Supervisor: Svátek, Vojtěch
Opponents: Dojčinovski, Milan
Thesis language: English
This thesis focuses on the analysis of interlinking of Linked Open Data resources in various data silos and DBpedia, the hub of the Semantic Web. It also attempts to analyse the consistency of bibliographic records related to artwork in the two major encyclopaedic datasets, DBpedia and Wikidata, in terms of internal consistency of artwork in Wikidata, which models its entries in compliance with the Functional Requirements for Bibliographic Records (FRBR), as well as the consistency of interlinking from DBpedia to Wikidata.The first part of the thesis describes the background of the topic, focusing on the concepts important for this thesis: Semantic Web, Linked Data, Data quality, knowledge representations in use on the Semantic Web, interlinking and two important ontologies (OWL and SKOS).The second part is dedicated to the analysis of various data quality features of interlinking with DBpedia. The results of this analysis of interlinking between various sources of LOD and DBpedia has led to some concerns over duplicate and inconsistent entities, but the real problem appears to be the currency of data with only half of the datasets linking DBpedia being updated at most five years before the data collection for this thesis took place (October through November 2019). It is also concerning that almost 14 % of the interlinked datasets are not available through standard Semantic Web technologies (SPARQL, dereferenceable URIs, RDF dump). The third part starts with the description of the approach to modelling artwork entities in Wikidata in compliance with FRBR and then continues with the analysis of internal consistency of this part of Wikidata and the consistency of interlinking of annotated entities from DBpedia and their counterparts from Wikidata. The percentage of FRBR entities in Wikidata found to be affected by inconsistencies is 1.5 %, but this figure may be higher due to technological constraints that prevented several queries from finishing. To compensate for the failed queries, the number of inconsistent entities was estimated by a calculation to be 22 %. The inconsistency rate of interlinking between DBpedia and Wikidata was found to be about 16 % according to the annotators.The last part aims to provide a holistic view of the problem domain, describing how the inconsistencies in different parts of the interlinking chain could lead to severe consequences unless pre-emptive measures are taken. A by-product of the research is a web application designed to facilitate the annotation of DBpedia resources with FRBR typing information, which was used to enable the analysis of interlinking between DBpedia and Wikidata. The key choices made during its development process are documented in the annex.
Keywords: DBpedia linking Wikidata; Wikidata artwork; linguistic datasets linking DBpedia; Wikidata FRBR; Wikidata consistency; linked open datasets linking DBpedia; linked data quality; interlinking consistency
Thesis title: Analýza propojenosti DBpedie s využitím sémantiky entit
Author: Fuchs, David
Thesis type: Diplomová práce
Supervisor: Svátek, Vojtěch
Opponents: Dojčinovski, Milan
Thesis language: English
Tato diplomová práce se zaměřuje na analýzu propojení propojených otevřených dat (LOD) z různých datových sad s DBpedií, jádrem sémantického webu. Pokouší se také analyzovat konzistenci bibliografických záznamů souvisejících s uměleckými díly ve dvou hlavních encyklopedických souborech dat, kterými jsou DBpedia a Wikidata, z hlediska vnitřní konzistence záznamů o uměleckých dílech z Wikidat, modelujících své záznamy v souladu s funkčními požadavky na bibliografické záznamy (FRBR), i z hlediska konzistence propojení entit z DBpedie do Wikidat.První část práce popisuje základy tématu se zaměřením na pojmy důležité pro tuto práci: sémantický web, propojená data, kvalita dat, reprezentace znalostí používané na sémantickém webu, propojení dat a dvě důležité ontologie (OWL a SKOS).Druhá část je věnována analýze různých vlastností determinujících kvalitu dat propojených s DBpedií. Výsledky této analýzy propojení mezi různými zdroji LOD a DBpedia vedly k mírně znepokojujícímu nálezu ohledně počtu duplicitních a nekonzistentních entit, skutečným problémem se však zdá být aktuálnost dat, protože pouhá polovina datových sad propojených s DBpedií byla aktualizována nejvýše pět let před sběrem dat pro tuto práci (říjen až listopad 2019). Rovněž je znepokojující, že téměř 14 % propojených datových sad není dostupných prostřednictvím standardních technologií pro sémantický web (SPARQL, dereferencovatelná URI, RDF dump).Třetí část začíná popisem přístupu k modelování entit uměleckých děl ve Wikidatech z pohledu FRBR a pokračuje analýzou vnitřní konzistence této části Wikidat a také konzistence propojení anotovaných entit z DBpedie a jejich protějšků z Wikidat. Procento entit FRBR z Wikidat ovlivněných nekonzistencemi je 1,5 %, ale toto číslo může být vyšší kvůli technologickým omezením, která zabránila dokončení několika SPARQL dotazů. Pro kompenzaci těchto neúspěšných pokusů byl počet nekonzistentních entit odhadnut výpočtem na hodnotu 22 %. Míra nekonzistentnosti propojení mezi DBpedií a Wikidaty byla podle anotátorů okolo 16 %.Poslední část má za cíl ukázat problémovou oblast z nadhledu a popsat, jakým způsobem by nesrovnalosti v různých částech řetězce propojení mezi datasety mohly vyústit v závažné důsledky, pokud nebudou přijata nápravná opatření.Vedlejším produktem výzkumu je webová aplikace určená k usnadnění anotace entit z DBpedie informacemi z oblasti FRBR, která byla použita k umožnění analýzy propojení mezi DBpedií a Wikidaty. Proces vývoje této aplikace je zdokumentován v příloze.
Keywords: propojení lexiko-lingvistických datasetů a DBpedie; konzistence propojených dat; propojené otevřené datasety propojené s DBpedií; kvalita propojených otevřených dat; Wikidata FRBR; konzistence datasetu Wikidata; umělecká díla v datasetu Wikidata; propojení datasetů DBpedia a Wikidata

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Date of assignment: 27. 6. 2019
Date of submission: 4. 5. 2020
Date of defense: 4. 6. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/70145/podrobnosti

