Extraction of unspecified relations from the web
Thesis title: | Extrakcia nešpecifikovaných znalostí z webu |
---|---|
Author: | Ovečka, Marek |
Thesis type: | Diploma thesis |
Supervisor: | Svátek, Vojtěch |
Opponents: | Labský, Martin |
Thesis language: | Slovensky |
Abstract: | Predmetom diplomovej práce je extrakcia nešpecifikovaných znalostí z webu. V posledných rokoch vznikli nástroje, ktoré zlepšujú výsledky odvetvia extrakcie znalostí. Cieľom práce je zoznámiť sa s týmito nástrojmi, jeden otestovať a navrhnúť využitie výsledkov. V práci sú popísané a porovnané tieto nástroje a vykonané extrakcie pomocou nástroja OLLIE. Na základe výsledkov extrakcií sú navrhnuté dve metódy obohatenia extrakcií pomocou rozoznania pomenovaných entít. Prvá metóda navrhuje úpravuju číselných váh kvality extrakcií a druhá obohatenie textu extrakcií pomocou pomenovaných entít. V práci je navrhnutá ontológia, ktorá umožnuje zachytiť štruktúru obohatených extrakcií. V poslednej časti je vykonaný praktický experiment, kde sú navrhnuté metódy predvedené. Návrhom ďalšieho smerovania výskumu v tejto oblasti by bolo extrahovať a kategorizovať relačné vzťahy. |
Keywords: | spracovanie prirodzeného jazyka; web; extrakcia znalostí |
Thesis title: | Extrakce nespecifikovaných relací z webu |
---|---|
Author: | Ovečka, Marek |
Thesis type: | Diplomová práce |
Supervisor: | Svátek, Vojtěch |
Opponents: | Labský, Martin |
Thesis language: | Slovensky |
Abstract: | Předmětem diplomové práce je extrakce nespecifikovaných znalostí z webu. V posledních letech vznikly nástroje, které zlepšují výsledky odvětví extrakce znalostí. Cílem práce je seznámit se s těmito nástroji, jeden otestovat a navrhnout využití výsledků. V práci jsou popsány a porovnány tyto nástroje a provedeny extrakce pomocí funkce OLLIE. Na základě výsledků extrakcí jsou navrženy dvě metody obohacení extrakcí pomocí rozeznání pojmenovaných entit. První metoda navrhuje úprava číselných vah kvality extrakcí a druhá obohacení textu extrakcí pomocí pojmenovaných entit. V práci je navržena ontologie, která umožnuje zachytit strukturu obohacených extrakcí. V poslední části je proveden praktický experiment, kde jsou navrženy metody předvedeny. Návrhem dalšího směřování výzkumu v této oblasti by bylo extrahovat a kategorizovat relační vztahy. |
Keywords: | web; spracování přirozeného jazyka; extrakce znalostí |
Thesis title: | Extraction of unspecified relations from the web |
---|---|
Author: | Ovečka, Marek |
Thesis type: | Diploma thesis |
Supervisor: | Svátek, Vojtěch |
Opponents: | Labský, Martin |
Thesis language: | Slovensky |
Abstract: | The subject of this thesis is non-specific knowledge extraction from the web. In recent years, tools that improve the results of this type of knowledge extraction were created. The aim of this thesis is to become familiar with these tools, test and propose the use of results. In this thesis these tools are described and compared and extraction is carried out using OLLIE. Based on the results of the extractions, two methods of enriching extractions using name entity recognition, are proposed. The first method proposes to modify the weights of extractions and second proposes the enrichment of extractions by named entities. The paper proposed ontology, which allows to capture the structure of enriched extractions. In the last part practical experiment is carried out, in which the proposed methods are demonstrated. Future research in this field would be useful in areas of extraction and categorization of relational phrases. |
Keywords: | natural language processing; web; knowledge extraction |
Information about study
Study programme: | Aplikovaná informatika/Znalostní technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 29. 1. 2013 |
---|---|
Date of submission: | 26. 6. 2013 |
Date of defense: | 29. 8. 2013 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/41134/podrobnosti |