Information Extraction from the Czech Wiktionary

Thesis title: Extrakce informací z českého Wikislovníku
Author: Lukáš, Martin
Thesis type: Diplomová práce
Supervisor: Zeman, Václav
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
Diplomová práce se věnuje extrakci převážně morfologických dat z českého Wikislovníku do formátu RDF. Cílem je vyvinout program schopný jak extrakce těchto semistrukturovaných dat, tak a namapování na vhodné ontologické koncepty. Teoretická část práce se zabývá úvodem do tematiky sémantického webu, standardů RDF a SPARQL, ontologických slovníků i principů Linked Data. V praktické části je proveden průzkum dosavadních projektů věnujících se extrakci z projektu Wiktionary. Následně je popsán návrh programu společně s procesem mapování dat na ontologické slovníky. Extraktor je implementován v Javě s využitím knihovny Apache Jena. Je také provedena základní analýza jak vstupních dat z Wikislovníku, tak i výsledného RDF datasetu. Na závěr jsou zkoumána různá uplatnění RDF datasetu, a pro demonstraci je vytvořena jednoduchá webová aplikace poskytující vylepšené a strukturované vyhledávání na stránkách Wikislovníku.
Keywords: Wikislovník; RDF; extrakce informací; Apache Jena
Thesis title: Information Extraction from the Czech Wiktionary
Author: Lukáš, Martin
Thesis type: Diploma thesis
Supervisor: Zeman, Václav
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
This thesis focuses on the extraction of primarily morphological data from the Czech Wiktionary into RDF. The main goal is to develop a program capable of extracting the semi-structured data as well as mapping it onto appropriate ontological concepts. The theoretical part of the thesis introduces the semantic web, RDF and SPARQL standards, ontologies and the basics of Linked Data. The practical part contains research of previously published works on the extraction from the Wiktionary project. Then follows the description of the design, together with the process of mapping the extracted data onto chosen ontological concepts. The extractor is implemented in Java, using the Apache Jena library. Furthermore, the input data and the output RDF dataset are analyzed, and the thesis concludes with a discussion on potential use of the RDF dataset, including a demonstration of an enhanced search engine for the Czech Wiktionary in the form of a simple web application working on top of the RDF model.
Keywords: information extraction; Wiktionary; RDF; Apache Jena

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 2. 4. 2019
Date of submission: 29. 11. 2019
Date of defense: 4. 2. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/69417/podrobnosti

Files for download

    Last update: