The most significant corpora in Czech and English for natural language processing
Thesis title: | Nejvýznamnější korpusy v českém a anglickém jazyce pro zpracovávání přirozeného jazyka |
---|---|
Author: | Vokálová, Petra |
Thesis type: | Bakalářská práce |
Supervisor: | Karkošková, Soňa |
Opponents: | Vencovský, Filip |
Thesis language: | Česky |
Abstract: | Cílem této práce je zhodnocení dostupných korpusů v českém a anglickém jazyce pro oblast umělé inteligence zpracování přirozeného jazyka pro úlohu analýza sentimentu a utvořit tak přehled těch nejčastěji se vyskytujících. Dalším cílem je nalézt odpověď na otázku, zda jsou korpusy v češtině kratší než anglické a zda jejich dostupnost bude horší. V první části práce je obecně vymezena oblast umělé inteligence, zpracování přirozeného jazyka a jeho využití a jsou stručně definovány korpusy. Druhá část je věnována jednotlivým korpusům v anglickém a českém jazyce, jejich zhodnocení a následném porovnání z hlediska velikosti a struktury, dostupnosti (dle licence a náročnosti jejich vyhledání), způsobu užití a kvality anotace z pohledu hodnotitele. V tomto porovnání byly shledány jako lepší anglické korpusy, které byly rozsáhlejší a na rozdíl od českých, které jsou omezeny pro osobní a akademické účely, je umožněno jejich volné využívání včetně komerčních účelů, a zároveň jsou početnější. Hodnocené anglické korpusy také obsahovaly méně rozporů s anotovaným sentimentem, protože byl kladen větší důraz na výběr dat a anotace probíhala pomocí více lidských anotátorů. |
Keywords: | Zpracování přirozeného jazyka; Analýza sentimentu; Korpusy |
Thesis title: | The most significant corpora in Czech and English for natural language processing |
---|---|
Author: | Vokálová, Petra |
Thesis type: | Bachelor thesis |
Supervisor: | Karkošková, Soňa |
Opponents: | Vencovský, Filip |
Thesis language: | Česky |
Abstract: | The aim of this work is to evaluate available Czech and English corpora for the field of artificial intelligence called natural language processing in the area of sentiment analysis and to create an overview of the most commonly available corpora. Secondly to answer the question whether the available corpora in Czech would be shorter than the English ones and whether there are limits to its availability. The first part of the work is based on an introduction to the field of artificial intelligence, natural language processing and a brief definition of its general usage. The second part is focused on evaluation of selected corpora in English and Czech, and their comparison in terms of size and structure, availability (according to their license and difficulty of finding them), their use cases and the quality of sentiment annotation from the point of view of the evaluator. In this comparison, English corpora was revealed to be more extensive, and unlike Czech corpora, which have restricted usage to personal and academic use, can be freely manipulated with, even for commercial purposes. English corpora are also superior to Czech corpora with regard to their quantity. The assessed corpora contained fewer contradictions in sentiment annotation, as more emphasis was placed on data selection and the annotation was carried out by more annotators. |
Keywords: | Natural language processing; Sentiment analysis; Corpora |
Information about study
Study programme: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 16. 11. 2018 |
---|---|
Date of submission: | 2. 5. 2019 |
Date of defense: | 12. 6. 2019 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/67763/podrobnosti |