Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií
Název práce: | Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií |
---|---|
Autor(ka) práce: | Pouzar, Aleš |
Typ práce: | Diplomová práce |
Vedoucí práce: | Svátek, Vojtěch |
Oponenti práce: | Labský, Martin |
Jazyk práce: | Česky |
Abstrakt: | Předkládaná práce se zabývá úlohou automatické extrakce informací z HTML dokumentů ve dvou vybraných doménách. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do záznamů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl vybrán extrakční systém Ex, který kombinuje dva typy extrakčních znalostí: ručně zadaná pravidla a supervizované algoritmy strojového učení. Díky expertní znalosti v podobě extrakčních pravidel lze účinně kompenzovat nedostatek trénovacích dat. Pravidla jsou přitom nezávislá na konkrétní formátovací struktuře a jeden extrakční model je tak možné využít pro heterogenní množinu dokumentů. Dosažená úspěšnost v extrakci nabídek notebooků ukázala, že by extrakční ontologie, popisující jeden nebo několik málo typů produktů, mohla být úspěšně využita v kombinaci s metodami pro indukci wrapperů a tím automaticky extrahovat nabídky všech typů produktů na úrovni webu. |
Klíčová slova: | dolování dat z webu; rozpoznávání pojmenovaných entit; strojové učení; extrakční ontologie; automatická sémantická anotace; extrakce informací |
Název práce: | Extracting Structured Data from Czech Web Using Extraction Ontologies |
---|---|
Autor(ka) práce: | Pouzar, Aleš |
Typ práce: | Diploma thesis |
Vedoucí práce: | Svátek, Vojtěch |
Oponenti práce: | Labský, Martin |
Jazyk práce: | Česky |
Abstrakt: | The presented thesis deals with the task of automatic information extraction from HTML documents for two selected domains. Laptop offers are extracted from e-shops and free-published job offerings are extracted from company sites. The extraction process outputs structured data of high granularity grouped into data records, in which corresponding semantic label is assigned to each data item. The task was performed using the extraction system Ex, which combines two approaches: manually written rules and supervised machine learning algorithms. Due to the expert knowledge in the form of extraction rules the lack of training data could be overcome. The rules are independent of the specific formatting structure so that one extraction model could be used for heterogeneous set of documents. The achieved success of the extraction process in the case of laptop offers showed that extraction ontology describing one or a few product types could be combined with wrapper induction methods to automatically extract all product type offers on a web scale with minimum human effort. |
Klíčová slova: | web content mining; named entity recognition; machine learning; extraction ontologies; automatic semantic annotation; information extraction |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Znalostní technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 12. 1. 2012 |
---|---|
Datum podání práce: | 31. 5. 2012 |
Datum obhajoby: | 11. 9. 2012 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/35453/podrobnosti |