Information Extraction from the Czech Wiktionary
Thesis title: | Extrakce informací z českého Wikislovníku |
---|---|
Author: | Lukáš, Martin |
Thesis type: | Diplomová práce |
Supervisor: | Zeman, Václav |
Opponents: | Svátek, Vojtěch |
Thesis language: | Česky |
Abstract: | Diplomová práce se věnuje extrakci převážně morfologických dat z českého Wikislovníku do formátu RDF. Cílem je vyvinout program schopný jak extrakce těchto semistrukturovaných dat, tak a namapování na vhodné ontologické koncepty. Teoretická část práce se zabývá úvodem do tematiky sémantického webu, standardů RDF a SPARQL, ontologických slovníků i principů Linked Data. V praktické části je proveden průzkum dosavadních projektů věnujících se extrakci z projektu Wiktionary. Následně je popsán návrh programu společně s procesem mapování dat na ontologické slovníky. Extraktor je implementován v Javě s využitím knihovny Apache Jena. Je také provedena základní analýza jak vstupních dat z Wikislovníku, tak i výsledného RDF datasetu. Na závěr jsou zkoumána různá uplatnění RDF datasetu, a pro demonstraci je vytvořena jednoduchá webová aplikace poskytující vylepšené a strukturované vyhledávání na stránkách Wikislovníku. |
Keywords: | Wikislovník; RDF; extrakce informací; Apache Jena |
Thesis title: | Information Extraction from the Czech Wiktionary |
---|---|
Author: | Lukáš, Martin |
Thesis type: | Diploma thesis |
Supervisor: | Zeman, Václav |
Opponents: | Svátek, Vojtěch |
Thesis language: | Česky |
Abstract: | This thesis focuses on the extraction of primarily morphological data from the Czech Wiktionary into RDF. The main goal is to develop a program capable of extracting the semi-structured data as well as mapping it onto appropriate ontological concepts. The theoretical part of the thesis introduces the semantic web, RDF and SPARQL standards, ontologies and the basics of Linked Data. The practical part contains research of previously published works on the extraction from the Wiktionary project. Then follows the description of the design, together with the process of mapping the extracted data onto chosen ontological concepts. The extractor is implemented in Java, using the Apache Jena library. Furthermore, the input data and the output RDF dataset are analyzed, and the thesis concludes with a discussion on potential use of the RDF dataset, including a demonstration of an enhanced search engine for the Czech Wiktionary in the form of a simple web application working on top of the RDF model. |
Keywords: | information extraction; Wiktionary; RDF; Apache Jena |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 2. 4. 2019 |
---|---|
Date of submission: | 29. 11. 2019 |
Date of defense: | 4. 2. 2020 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/69417/podrobnosti |