Analysing Czech Wikipedia using DBpedia
Thesis title: | Analýza české Wikipedie s využitím DBpedie |
---|---|
Author: | Karásek, Martin |
Thesis type: | Diplomová práce |
Supervisor: | Zeman, Václav |
Opponents: | Svátek, Vojtěch |
Thesis language: | Česky |
Abstract: | Diplomová práce se věnuje oblasti sémantického webu a propojených dat. Pracuje s DBpedií coby projektem na extrakci strojově čitelných dat z Wikipedie. Cílem diplomové práce je rozšířit a zkvalitnit datový obsah české DBpedie a vytvořit soubor obsahující statistická data popisující její obsah. Tím bude dán přehled i o kvantitě dat v české Wikipedii. Součástí hlavního cíle diplomové práce je také tyto statistické údaje na webu české DBpedie vizualizovat. Diplomová práce obsahuje teoretickou část a část praktickou. V teoretické části se věnuje úvodu do sémantického webu a propojených dat, osvětluje důležité pojmy a zkoumá výchozí stav české DBpedie. Praktická část diplomové práce představuje postupné praktické kroky k naplnění hlavního cíle, zabývá se konkrétními úpravami české DBpedie, kvantifikuje výsledek provedených úprav, popisuje proces tvorby statistického datasetu a aplikace pro jeho automatickou aktualizaci. Je detailně popsán i proces vizualizace statistických údajů na webu české DBpedie a na několika příkladech je popsáno praktické využití vizualizovaných statistik k budoucímu zkvalitnění obsahu české Wikipedie. |
Keywords: | Sémantický web; RDF; ontologie; SPARQL; Wikipedia; DBpedia |
Thesis title: | Analysing Czech Wikipedia using DBpedia |
---|---|
Author: | Karásek, Martin |
Thesis type: | Diploma thesis |
Supervisor: | Zeman, Václav |
Opponents: | Svátek, Vojtěch |
Thesis language: | Česky |
Abstract: | The diploma thesis deals with domain of semantic web and linked data. It works with DBpedia as a project to extract structured data from Wikipedia. The aim of this diploma is to extend and improve the data content of Czech DBpedia and to create a data file containing statistical data describing its content. This will give an overview of data quantity in Czech Wikipedia. Part of this aim is also to visualize these statistical data on Czech DBpedia website. The diploma thesis contains theoretical part and practical part. The theoretical part introduces the semantic web and linked data, explains important concepts and terms and examines the initial state of Czech DBpedia. The practical part presents practical steps to fulfill the main aim, deals with specfic modifications of the Czech DBpedia, quantifies the result of the modifications made, describes the process of creating a statistical dataset application for its automatic updating. The process of visualization of statistical data on Czech DBpedia website is also described in detail and there are several examples of possible utilization of visualized statistics for the future improvement of the content of Czech Wikipedia. |
Keywords: | RDF; ontology; SPARQL; Wikipedia; DBpedia; Semantic web |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 3. 1. 2018 |
---|---|
Date of submission: | 3. 12. 2018 |
Date of defense: | 21. 1. 2019 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/64354/podrobnosti |