Nejvýznamnější korpusy v českém a anglickém jazyce pro zpracovávání přirozeného jazyka

Název práce: Nejvýznamnější korpusy v českém a anglickém jazyce pro zpracovávání přirozeného jazyka
Autor(ka) práce: Vokálová, Petra
Typ práce: Bakalářská práce
Vedoucí práce: Karkošková, Soňa
Oponenti práce: Vencovský, Filip
Jazyk práce: Česky
Abstrakt:
Cílem této práce je zhodnocení dostupných korpusů v českém a anglickém jazyce pro oblast umělé inteligence zpracování přirozeného jazyka pro úlohu analýza sentimentu a utvořit tak přehled těch nejčastěji se vyskytujících. Dalším cílem je nalézt odpověď na otázku, zda jsou korpusy v češtině kratší než anglické a zda jejich dostupnost bude horší. V první části práce je obecně vymezena oblast umělé inteligence, zpracování přirozeného jazyka a jeho využití a jsou stručně definovány korpusy. Druhá část je věnována jednotlivým korpusům v anglickém a českém jazyce, jejich zhodnocení a následném porovnání z hlediska velikosti a struktury, dostupnosti (dle licence a náročnosti jejich vyhledání), způsobu užití a kvality anotace z pohledu hodnotitele. V tomto porovnání byly shledány jako lepší anglické korpusy, které byly rozsáhlejší a na rozdíl od českých, které jsou omezeny pro osobní a akademické účely, je umožněno jejich volné využívání včetně komerčních účelů, a zároveň jsou početnější. Hodnocené anglické korpusy také obsahovaly méně rozporů s anotovaným sentimentem, protože byl kladen větší důraz na výběr dat a anotace probíhala pomocí více lidských anotátorů.
Klíčová slova: Zpracování přirozeného jazyka; Analýza sentimentu; Korpusy
Název práce: The most significant corpora in Czech and English for natural language processing
Autor(ka) práce: Vokálová, Petra
Typ práce: Bachelor thesis
Vedoucí práce: Karkošková, Soňa
Oponenti práce: Vencovský, Filip
Jazyk práce: Česky
Abstrakt:
The aim of this work is to evaluate available Czech and English corpora for the field of artificial intelligence called natural language processing in the area of sentiment analysis and to create an overview of the most commonly available corpora. Secondly to answer the question whether the available corpora in Czech would be shorter than the English ones and whether there are limits to its availability. The first part of the work is based on an introduction to the field of artificial intelligence, natural language processing and a brief definition of its general usage. The second part is focused on evaluation of selected corpora in English and Czech, and their comparison in terms of size and structure, availability (according to their license and difficulty of finding them), their use cases and the quality of sentiment annotation from the point of view of the evaluator. In this comparison, English corpora was revealed to be more extensive, and unlike Czech corpora, which have restricted usage to personal and academic use, can be freely manipulated with, even for commercial purposes. English corpora are also superior to Czech corpora with regard to their quantity. The assessed corpora contained fewer contradictions in sentiment annotation, as more emphasis was placed on data selection and the annotation was carried out by more annotators.
Klíčová slova: Natural language processing; Sentiment analysis; Corpora

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 16. 11. 2018
Datum podání práce: 2. 5. 2019
Datum obhajoby: 12. 6. 2019
Identifikátor v systému InSIS: https://insis.vse.cz/zp/67763/podrobnosti

Soubory ke stažení

    Poslední aktualizace: