The most significant corpora in Czech and English for natural language processing

Thesis title: Nejvýznamnější korpusy v českém a anglickém jazyce pro zpracovávání přirozeného jazyka
Author: Vokálová, Petra
Thesis type: Bakalářská práce
Supervisor: Karkošková, Soňa
Opponents: Vencovský, Filip
Thesis language: Česky
Abstract:
Cílem této práce je zhodnocení dostupných korpusů v českém a anglickém jazyce pro oblast umělé inteligence zpracování přirozeného jazyka pro úlohu analýza sentimentu a utvořit tak přehled těch nejčastěji se vyskytujících. Dalším cílem je nalézt odpověď na otázku, zda jsou korpusy v češtině kratší než anglické a zda jejich dostupnost bude horší. V první části práce je obecně vymezena oblast umělé inteligence, zpracování přirozeného jazyka a jeho využití a jsou stručně definovány korpusy. Druhá část je věnována jednotlivým korpusům v anglickém a českém jazyce, jejich zhodnocení a následném porovnání z hlediska velikosti a struktury, dostupnosti (dle licence a náročnosti jejich vyhledání), způsobu užití a kvality anotace z pohledu hodnotitele. V tomto porovnání byly shledány jako lepší anglické korpusy, které byly rozsáhlejší a na rozdíl od českých, které jsou omezeny pro osobní a akademické účely, je umožněno jejich volné využívání včetně komerčních účelů, a zároveň jsou početnější. Hodnocené anglické korpusy také obsahovaly méně rozporů s anotovaným sentimentem, protože byl kladen větší důraz na výběr dat a anotace probíhala pomocí více lidských anotátorů.
Keywords: Zpracování přirozeného jazyka; Analýza sentimentu; Korpusy
Thesis title: The most significant corpora in Czech and English for natural language processing
Author: Vokálová, Petra
Thesis type: Bachelor thesis
Supervisor: Karkošková, Soňa
Opponents: Vencovský, Filip
Thesis language: Česky
Abstract:
The aim of this work is to evaluate available Czech and English corpora for the field of artificial intelligence called natural language processing in the area of sentiment analysis and to create an overview of the most commonly available corpora. Secondly to answer the question whether the available corpora in Czech would be shorter than the English ones and whether there are limits to its availability. The first part of the work is based on an introduction to the field of artificial intelligence, natural language processing and a brief definition of its general usage. The second part is focused on evaluation of selected corpora in English and Czech, and their comparison in terms of size and structure, availability (according to their license and difficulty of finding them), their use cases and the quality of sentiment annotation from the point of view of the evaluator. In this comparison, English corpora was revealed to be more extensive, and unlike Czech corpora, which have restricted usage to personal and academic use, can be freely manipulated with, even for commercial purposes. English corpora are also superior to Czech corpora with regard to their quantity. The assessed corpora contained fewer contradictions in sentiment annotation, as more emphasis was placed on data selection and the annotation was carried out by more annotators.
Keywords: Natural language processing; Sentiment analysis; Corpora

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 16. 11. 2018
Date of submission: 2. 5. 2019
Date of defense: 12. 6. 2019
Identifier in the InSIS system: https://insis.vse.cz/zp/67763/podrobnosti

Files for download

    Last update: