Analysing Czech Wikipedia using DBpedia

Thesis title: Analýza české Wikipedie s využitím DBpedie
Author: Karásek, Martin
Thesis type: Diplomová práce
Supervisor: Zeman, Václav
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
Diplomová práce se věnuje oblasti sémantického webu a propojených dat. Pracuje s DBpedií coby projektem na extrakci strojově čitelných dat z Wikipedie. Cílem diplomové práce je rozšířit a zkvalitnit datový obsah české DBpedie a vytvořit soubor obsahující statistická data popisující její obsah. Tím bude dán přehled i o kvantitě dat v české Wikipedii. Součástí hlavního cíle diplomové práce je také tyto statistické údaje na webu české DBpedie vizualizovat. Diplomová práce obsahuje teoretickou část a část praktickou. V teoretické části se věnuje úvodu do sémantického webu a propojených dat, osvětluje důležité pojmy a zkoumá výchozí stav české DBpedie. Praktická část diplomové práce představuje postupné praktické kroky k naplnění hlavního cíle, zabývá se konkrétními úpravami české DBpedie, kvantifikuje výsledek provedených úprav, popisuje proces tvorby statistického datasetu a aplikace pro jeho automatickou aktualizaci. Je detailně popsán i proces vizualizace statistických údajů na webu české DBpedie a na několika příkladech je popsáno praktické využití vizualizovaných statistik k budoucímu zkvalitnění obsahu české Wikipedie.
Keywords: Sémantický web; RDF; ontologie; SPARQL; Wikipedia; DBpedia
Thesis title: Analysing Czech Wikipedia using DBpedia
Author: Karásek, Martin
Thesis type: Diploma thesis
Supervisor: Zeman, Václav
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
The diploma thesis deals with domain of semantic web and linked data. It works with DBpedia as a project to extract structured data from Wikipedia. The aim of this diploma is to extend and improve the data content of Czech DBpedia and to create a data file containing statistical data describing its content. This will give an overview of data quantity in Czech Wikipedia. Part of this aim is also to visualize these statistical data on Czech DBpedia website. The diploma thesis contains theoretical part and practical part. The theoretical part introduces the semantic web and linked data, explains important concepts and terms and examines the initial state of Czech DBpedia. The practical part presents practical steps to fulfill the main aim, deals with specfic modifications of the Czech DBpedia, quantifies the result of the modifications made, describes the process of creating a statistical dataset application for its automatic updating. The process of visualization of statistical data on Czech DBpedia website is also described in detail and there are several examples of possible utilization of visualized statistics for the future improvement of the content of Czech Wikipedia.
Keywords: RDF; ontology; SPARQL; Wikipedia; DBpedia; Semantic web

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 3. 1. 2018
Date of submission: 3. 12. 2018
Date of defense: 21. 1. 2019
Identifier in the InSIS system: https://insis.vse.cz/zp/64354/podrobnosti

Files for download

    Last update: