-

Název práce: Extrakce informací z textu
Autor(ka) práce: Michalko, Boris
Typ práce: Diplomová práce
Vedoucí práce: Labský, Martin
Oponenti práce: Svátek, Vojtěch; Nováček, Jan
Jazyk práce: Slovensky
Abstrakt:
Cieľom tejto práce je preskúmať dostupné systémy pre extrakciu informácií a možnosti ich použitia v projekte MedIEQ. Teoretickú časť obsahuje úvod do oblasti extrakcie informácií. Popisujem účel, potreby a použitie a vzťah k iným úlohám spracovania prirodzeného jazyka. Prechádzam históriou, nedávnym vývojom, meraním výkonnosti a jeho kritikou. Taktiež popisujem všeobecnú architektúru IE systému a základné úlohy, ktoré má riešiť, s dôrazom na extrakciu entít. V praktickej časti sa nacházda prehľad algoritmov používaných v systémoch pre extrakciu informácií. Opisujem oba typy algoritmov ? pravidlové aj štatistické. V ďalšej kapitole je zoznam a krátky popis existujúcich voľných systémov. Nakoniec robím vlastný experiment s dvomi systémami ? LingPipe a GATE na vybraných korpusoch. Meriam rôzne výkonnostné štatistiky. Taktiež som vytvoril malý slovník a regulárny výraz pre email aby som demonštroval taktiež pravidlá pre extrahovanie určitých špecifických informácií.
Klíčová slova:

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační a znalostní inženýrství
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 1. 2008
Datum podání práce: 1. 1. 2008
Datum obhajoby: 28. 1. 2008
Identifikátor v systému InSIS: https://insis.vse.cz/zp/7800/podrobnosti

Soubory ke stažení

    Poslední aktualizace: