Pragmatický lematizátor českých slov
Název práce: | Pragmatický lematizátor českých slov |
---|---|
Autor(ka) práce: | Vacek, Matěj |
Typ práce: | Diplomová práce |
Vedoucí práce: | Strossa, Petr |
Oponenti práce: | Kliegr, Tomáš |
Jazyk práce: | Česky |
Abstrakt: | Tato práce se zabývá lemmatizací podstatných a přídavných jmen na základě morfologie českého jazyka. Cílem práce je vytvořit lemmatizátor, který bude lemmatizovat slova s úspěšností alespoň 90%. Zároveň by měl být lemmatizátor co nejjednodušší, tj. měl by mít co nejméně pravidel. Lemmatizátor bude vytvářen pro oblast realitních inzerátů na prodej domů. V práci budou analyzovány specifika této oblasti a lemmatizátor bude přizpůsoben této oblasti, tak aby při lemmatizaci vytvářel co nejlepší výsledky. Lemmatizátor byl vytvořen v jazyce Java. Bylo použito velmi málo pravidel (pouze tři typy) a celkově byl lemmatizátor úspěšný v 96,4% případech. |
Klíčová slova: | realitní inzeráty; morfologie; český jazyk; lemma |
Název práce: | Pragmatic lemmatizer of Czech language |
---|---|
Autor(ka) práce: | Vacek, Matěj |
Typ práce: | Diploma thesis |
Vedoucí práce: | Strossa, Petr |
Oponenti práce: | Kliegr, Tomáš |
Jazyk práce: | Česky |
Abstrakt: | This thesis is focused on lemmatizing of nouns and adjectives. It is based on morphology of Czech language. The goal is to create a lemmatizer which can stem words with success rate 90% (at least). At the same time the lemmatizer should be very easy, it should consist as little rules as possible. Lemmatizer will be created to work with real estate adverts, especially houses for sale. In this thesis there will be made an analysis of specific characters of this area. Lemmatizer will be created according to results of this analysis. Lemmatizer was written in Java. Only three types of rules were used and generally the lemmatizer created correct stems in 96.4% of all words. |
Klíčová slova: | real estate advert; lemma; morphology; Czech language |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Podniková informatika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 13. 2. 2014 |
---|---|
Datum podání práce: | 1. 12. 2014 |
Datum obhajoby: | 4. 2. 2015 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/46407/podrobnosti |