Extrakce informací z českého Wikislovníku
Název práce: | Extrakce informací z českého Wikislovníku |
---|---|
Autor(ka) práce: | Lukáš, Martin |
Typ práce: | Diplomová práce |
Vedoucí práce: | Zeman, Václav |
Oponenti práce: | Svátek, Vojtěch |
Jazyk práce: | Česky |
Abstrakt: | Diplomová práce se věnuje extrakci převážně morfologických dat z českého Wikislovníku do formátu RDF. Cílem je vyvinout program schopný jak extrakce těchto semistrukturovaných dat, tak a namapování na vhodné ontologické koncepty. Teoretická část práce se zabývá úvodem do tematiky sémantického webu, standardů RDF a SPARQL, ontologických slovníků i principů Linked Data. V praktické části je proveden průzkum dosavadních projektů věnujících se extrakci z projektu Wiktionary. Následně je popsán návrh programu společně s procesem mapování dat na ontologické slovníky. Extraktor je implementován v Javě s využitím knihovny Apache Jena. Je také provedena základní analýza jak vstupních dat z Wikislovníku, tak i výsledného RDF datasetu. Na závěr jsou zkoumána různá uplatnění RDF datasetu, a pro demonstraci je vytvořena jednoduchá webová aplikace poskytující vylepšené a strukturované vyhledávání na stránkách Wikislovníku. |
Klíčová slova: | Wikislovník; RDF; extrakce informací; Apache Jena |
Název práce: | Information Extraction from the Czech Wiktionary |
---|---|
Autor(ka) práce: | Lukáš, Martin |
Typ práce: | Diploma thesis |
Vedoucí práce: | Zeman, Václav |
Oponenti práce: | Svátek, Vojtěch |
Jazyk práce: | Česky |
Abstrakt: | This thesis focuses on the extraction of primarily morphological data from the Czech Wiktionary into RDF. The main goal is to develop a program capable of extracting the semi-structured data as well as mapping it onto appropriate ontological concepts. The theoretical part of the thesis introduces the semantic web, RDF and SPARQL standards, ontologies and the basics of Linked Data. The practical part contains research of previously published works on the extraction from the Wiktionary project. Then follows the description of the design, together with the process of mapping the extracted data onto chosen ontological concepts. The extractor is implemented in Java, using the Apache Jena library. Furthermore, the input data and the output RDF dataset are analyzed, and the thesis concludes with a discussion on potential use of the RDF dataset, including a demonstration of an enhanced search engine for the Czech Wiktionary in the form of a simple web application working on top of the RDF model. |
Klíčová slova: | information extraction; Wiktionary; RDF; Apache Jena |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 2. 4. 2019 |
---|---|
Datum podání práce: | 29. 11. 2019 |
Datum obhajoby: | 4. 2. 2020 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/69417/podrobnosti |