Extrakce informací z českého Wikislovníku

Název práce: Extrakce informací z českého Wikislovníku
Autor(ka) práce: Lukáš, Martin
Typ práce: Diplomová práce
Vedoucí práce: Zeman, Václav
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Česky
Abstrakt:
Diplomová práce se věnuje extrakci převážně morfologických dat z českého Wikislovníku do formátu RDF. Cílem je vyvinout program schopný jak extrakce těchto semistrukturovaných dat, tak a namapování na vhodné ontologické koncepty. Teoretická část práce se zabývá úvodem do tematiky sémantického webu, standardů RDF a SPARQL, ontologických slovníků i principů Linked Data. V praktické části je proveden průzkum dosavadních projektů věnujících se extrakci z projektu Wiktionary. Následně je popsán návrh programu společně s procesem mapování dat na ontologické slovníky. Extraktor je implementován v Javě s využitím knihovny Apache Jena. Je také provedena základní analýza jak vstupních dat z Wikislovníku, tak i výsledného RDF datasetu. Na závěr jsou zkoumána různá uplatnění RDF datasetu, a pro demonstraci je vytvořena jednoduchá webová aplikace poskytující vylepšené a strukturované vyhledávání na stránkách Wikislovníku.
Klíčová slova: Wikislovník; RDF; extrakce informací; Apache Jena
Název práce: Information Extraction from the Czech Wiktionary
Autor(ka) práce: Lukáš, Martin
Typ práce: Diploma thesis
Vedoucí práce: Zeman, Václav
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Česky
Abstrakt:
This thesis focuses on the extraction of primarily morphological data from the Czech Wiktionary into RDF. The main goal is to develop a program capable of extracting the semi-structured data as well as mapping it onto appropriate ontological concepts. The theoretical part of the thesis introduces the semantic web, RDF and SPARQL standards, ontologies and the basics of Linked Data. The practical part contains research of previously published works on the extraction from the Wiktionary project. Then follows the description of the design, together with the process of mapping the extracted data onto chosen ontological concepts. The extractor is implemented in Java, using the Apache Jena library. Furthermore, the input data and the output RDF dataset are analyzed, and the thesis concludes with a discussion on potential use of the RDF dataset, including a demonstration of an enhanced search engine for the Czech Wiktionary in the form of a simple web application working on top of the RDF model.
Klíčová slova: information extraction; Wiktionary; RDF; Apache Jena

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 2. 4. 2019
Datum podání práce: 29. 11. 2019
Datum obhajoby: 4. 2. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/69417/podrobnosti

Soubory ke stažení

    Poslední aktualizace: