Jak kvalita lemmatizace ovlivňuje výsledky vyhledávání dokumentů v českém jazyce

Název práce: Jak kvalita lemmatizace ovlivňuje výsledky vyhledávání dokumentů v českém jazyce
Autor(ka) práce: Pytelka, Petr
Typ práce: Diplomová práce
Vedoucí práce: Strossa, Petr
Oponenti práce: Pinkas, Otakar
Jazyk práce: Česky
Abstrakt:
Cílem práce je měření kvality lemmatizace pro český jazyk v systémech zpracování doku-mentů a analýza výsledků tohoto měření. V teoretické části práce je popsán princip plno-textového vyhledávání, možnosti realizace lemmatizace a běžné problémy, které je nutné řešit při zpracování přirozeného jazyka. V práci jsou diskutovány možnosti hodnocení kva-lity lemmatizace pomocí měření přesnosti a úplnosti vyhledávání. Pro detailnější hodnocení lemmatizátoru je popsána metoda měření nadměrné a nedostatečné lemmatizace. V druhé části práce je navržen experiment a testovací aplikace pro měření kvality lemmati-zace ve třech systémech, které jsou používány pro realizaci vyhledávání dokumentů. Jedná se o knihovnu Apache Lucene, databázové systémy PostgreSQL a Microsoft SQL Server. Experiment je prováděn s využitím Pražského závislostního korpusu, a to pro korpus jako celek a zvlášť pro vybrané slovní druhy. Rozbor výsledků pro výchozí lemmatizátor pro český jazyk v Lucene umožnil návrh několika drobných úprav, které vedou k měřitelnému zlepšení vyhledávání. Výsledky práce ukazují, jak lze využít uvedené metriky a podrobné výsledky pro zlepšování lemmatizačních algoritmů a tím i pro zkvalitnění plnotextového vyhledávání pro český jazyk.
Klíčová slova: nadměrná lemmatizace; nedostatečná lemmatizace; Apache Lucene; kvalita; vyhledávání; český jazyk; lemmatizace
Název práce: Effect of the Czech Stemming Algorithm on the Document Retrieval
Autor(ka) práce: Pytelka, Petr
Typ práce: Diploma thesis
Vedoucí práce: Strossa, Petr
Oponenti práce: Pinkas, Otakar
Jazyk práce: Česky
Abstrakt:
This thesis deals with the measurement of the quality of the stemming/lemmatization algo-rithm for the Czech language in document processing systems and provides an analysis of the results. The theoretical part of the thesis describes the principles of the full-text search, the possibilities of implementation as well as the common problems which have to be solved in connection with the processing of natural language. Methods of evaluating the quality of lemmatization, using recall and precision, are discussed. In addition, the theoret-ical part covers the method of measuring the index of under-stemming and over-stemming, which can be applied for the purposes of a more detailed evaluation. An experiment for evaluating the lemmatization algorithms is proposed in the second part of the thesis. A specialized application has been developed to perform the experiment in three different systems, namely Apache Lucene, the PostgreSQL database systems and the Microsoft SQL Server. The experiment is based on the Prague Dependency Treebank cor-pus. It has been carried out both for the corpus as a whole and for selected word classes separately. Further analysis of the results for Czech stemmer in Apache Lucene leads to a proposal for several modifications of the algorithm. Such modifications result in measurable improvements. The results achieved show how metrics discussed, together with the values measured, can be used for improving the lemmatization algorithms and thus to improve the full-text search for Czech language.
Klíčová slova: Apache Lucene; evaluation; Czech language; stemming; over-stemming; under-stemming; information retrieval

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 17. 5. 2012
Datum podání práce: 2. 12. 2012
Datum obhajoby: 6. 2. 2013
Identifikátor v systému InSIS: https://insis.vse.cz/zp/37726/podrobnosti

Soubory ke stažení

    Poslední aktualizace: