Effect of the Czech Stemming Algorithm on the Document Retrieval

Thesis title: Jak kvalita lemmatizace ovlivňuje výsledky vyhledávání dokumentů v českém jazyce
Author: Pytelka, Petr
Thesis type: Diplomová práce
Supervisor: Strossa, Petr
Opponents: Pinkas, Otakar
Thesis language: Česky
Abstract:
Cílem práce je měření kvality lemmatizace pro český jazyk v systémech zpracování doku-mentů a analýza výsledků tohoto měření. V teoretické části práce je popsán princip plno-textového vyhledávání, možnosti realizace lemmatizace a běžné problémy, které je nutné řešit při zpracování přirozeného jazyka. V práci jsou diskutovány možnosti hodnocení kva-lity lemmatizace pomocí měření přesnosti a úplnosti vyhledávání. Pro detailnější hodnocení lemmatizátoru je popsána metoda měření nadměrné a nedostatečné lemmatizace. V druhé části práce je navržen experiment a testovací aplikace pro měření kvality lemmati-zace ve třech systémech, které jsou používány pro realizaci vyhledávání dokumentů. Jedná se o knihovnu Apache Lucene, databázové systémy PostgreSQL a Microsoft SQL Server. Experiment je prováděn s využitím Pražského závislostního korpusu, a to pro korpus jako celek a zvlášť pro vybrané slovní druhy. Rozbor výsledků pro výchozí lemmatizátor pro český jazyk v Lucene umožnil návrh několika drobných úprav, které vedou k měřitelnému zlepšení vyhledávání. Výsledky práce ukazují, jak lze využít uvedené metriky a podrobné výsledky pro zlepšování lemmatizačních algoritmů a tím i pro zkvalitnění plnotextového vyhledávání pro český jazyk.
Keywords: nadměrná lemmatizace; nedostatečná lemmatizace; Apache Lucene; kvalita; vyhledávání; český jazyk; lemmatizace
Thesis title: Effect of the Czech Stemming Algorithm on the Document Retrieval
Author: Pytelka, Petr
Thesis type: Diploma thesis
Supervisor: Strossa, Petr
Opponents: Pinkas, Otakar
Thesis language: Česky
Abstract:
This thesis deals with the measurement of the quality of the stemming/lemmatization algo-rithm for the Czech language in document processing systems and provides an analysis of the results. The theoretical part of the thesis describes the principles of the full-text search, the possibilities of implementation as well as the common problems which have to be solved in connection with the processing of natural language. Methods of evaluating the quality of lemmatization, using recall and precision, are discussed. In addition, the theoret-ical part covers the method of measuring the index of under-stemming and over-stemming, which can be applied for the purposes of a more detailed evaluation. An experiment for evaluating the lemmatization algorithms is proposed in the second part of the thesis. A specialized application has been developed to perform the experiment in three different systems, namely Apache Lucene, the PostgreSQL database systems and the Microsoft SQL Server. The experiment is based on the Prague Dependency Treebank cor-pus. It has been carried out both for the corpus as a whole and for selected word classes separately. Further analysis of the results for Czech stemmer in Apache Lucene leads to a proposal for several modifications of the algorithm. Such modifications result in measurable improvements. The results achieved show how metrics discussed, together with the values measured, can be used for improving the lemmatization algorithms and thus to improve the full-text search for Czech language.
Keywords: Apache Lucene; evaluation; Czech language; stemming; over-stemming; under-stemming; information retrieval

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 17. 5. 2012
Date of submission: 2. 12. 2012
Date of defense: 6. 2. 2013
Identifier in the InSIS system: https://insis.vse.cz/zp/37726/podrobnosti

Files for download

    Last update: