Nejvýznamnější korpusy v českém a anglickém jazyce pro zpracovávání přirozeného jazyka
Název práce: | Nejvýznamnější korpusy v českém a anglickém jazyce pro zpracovávání přirozeného jazyka |
---|---|
Autor(ka) práce: | Vokálová, Petra |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Karkošková, Soňa |
Oponenti práce: | Vencovský, Filip |
Jazyk práce: | Česky |
Abstrakt: | Cílem této práce je zhodnocení dostupných korpusů v českém a anglickém jazyce pro oblast umělé inteligence zpracování přirozeného jazyka pro úlohu analýza sentimentu a utvořit tak přehled těch nejčastěji se vyskytujících. Dalším cílem je nalézt odpověď na otázku, zda jsou korpusy v češtině kratší než anglické a zda jejich dostupnost bude horší. V první části práce je obecně vymezena oblast umělé inteligence, zpracování přirozeného jazyka a jeho využití a jsou stručně definovány korpusy. Druhá část je věnována jednotlivým korpusům v anglickém a českém jazyce, jejich zhodnocení a následném porovnání z hlediska velikosti a struktury, dostupnosti (dle licence a náročnosti jejich vyhledání), způsobu užití a kvality anotace z pohledu hodnotitele. V tomto porovnání byly shledány jako lepší anglické korpusy, které byly rozsáhlejší a na rozdíl od českých, které jsou omezeny pro osobní a akademické účely, je umožněno jejich volné využívání včetně komerčních účelů, a zároveň jsou početnější. Hodnocené anglické korpusy také obsahovaly méně rozporů s anotovaným sentimentem, protože byl kladen větší důraz na výběr dat a anotace probíhala pomocí více lidských anotátorů. |
Klíčová slova: | Zpracování přirozeného jazyka; Analýza sentimentu; Korpusy |
Název práce: | The most significant corpora in Czech and English for natural language processing |
---|---|
Autor(ka) práce: | Vokálová, Petra |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Karkošková, Soňa |
Oponenti práce: | Vencovský, Filip |
Jazyk práce: | Česky |
Abstrakt: | The aim of this work is to evaluate available Czech and English corpora for the field of artificial intelligence called natural language processing in the area of sentiment analysis and to create an overview of the most commonly available corpora. Secondly to answer the question whether the available corpora in Czech would be shorter than the English ones and whether there are limits to its availability. The first part of the work is based on an introduction to the field of artificial intelligence, natural language processing and a brief definition of its general usage. The second part is focused on evaluation of selected corpora in English and Czech, and their comparison in terms of size and structure, availability (according to their license and difficulty of finding them), their use cases and the quality of sentiment annotation from the point of view of the evaluator. In this comparison, English corpora was revealed to be more extensive, and unlike Czech corpora, which have restricted usage to personal and academic use, can be freely manipulated with, even for commercial purposes. English corpora are also superior to Czech corpora with regard to their quantity. The assessed corpora contained fewer contradictions in sentiment annotation, as more emphasis was placed on data selection and the annotation was carried out by more annotators. |
Klíčová slova: | Natural language processing; Sentiment analysis; Corpora |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 16. 11. 2018 |
---|---|
Datum podání práce: | 2. 5. 2019 |
Datum obhajoby: | 12. 6. 2019 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/67763/podrobnosti |