Advanced Rule-Based Approaches for Explainable Sentiment Analysis (for Czech)

Thesis title: Advanced Rule-Based Approaches for Explainable Sentiment Analysis (for Czech)
Author: Immer, Marek
Thesis type: Diploma thesis
Supervisor: Víta, Martin
Opponents: -
Thesis language: English
Abstract:
This thesis deals with implementing a rule-based shifter pattern approach for sentiment analysis for the Czech language and comparing it to other modern approaches, mainly the state-of-the-art deep neural network approach. Two algorithms are implemented based on existing research for other languages, one using a proximity approach and the other using dependency trees. Lists of Czech shifters for different patterns like intensificators and deintensificators are collected. Existing sentiment lexicons are used alongside a method for automatic lexicon generation. For evaluation, apart from already existing Czech datasets, two new datasets from an economics domain are created, utilizing automation with generative artificial intelligence for parts of the process. The evaluation shows that the rule-based approach didn't manage to outperform others, instead falling behind. The difference between the best rule-based setup and the best state-of-the-art DNN approach in terms of macro F-score was between 0.14 and 0.23. Some of the main causes of errors included the imperfections of existing Czech lexicons, ambiguity, and complex semantics that are hard to capture with a limited set of rules or not capturing a certain pattern due to an incomplete list of possible words. The proximity approach performed slightly better than the dependency tree one, which still has room to improve. Compared to neural-network approaches, the rule-based approach showed itself as more explainable, faster in execution speed, and less resource-dependent, however, it would require substantial effort to bring it close to the level of the current state-of-the-art in terms of accuracy.
Keywords: lexicon-based; lexicon; shifter patterns; contextual valence shifters; czech; rule-based; sentiment; sentiment analysis
Thesis title: Pokročilé pravidlové přístupy pro vysvětlitelnou analýzu sentimentu (pro češtinu)
Author: Immer, Marek
Thesis type: Diplomová práce
Supervisor: Víta, Martin
Opponents: -
Thesis language: English
Abstract:
Tato práce se zabývá implementací pravidlového přístupu užívajícího shifter patterns pro analýzu sentimentu v českém jazyce a jeho porovnáním s jinými moderními přístupy, zejména se state-of-the-art přístupy založenými na hlubokých neuronových sítích. Na základě výzkumu z jiných jazyků jsou implementovány dva algoritmy, jeden využívající přístup na proximitě a druhý využívající závislostní stromy. K tomu jsou vytvořeny seznamy českých shifterů pro různé jazykové vzory jako intensifikátory a deintensifikátory. Jsou použity existující lexikony sentimentu spolu s metodou pro automatické generování lexikonů. Pro evaluaci jsou mimo existujících českých datasetů vytvořeny dva nové, které se zaměřují na doménu ekonomiky, za pomoci automatizace určitých procesů generativní umělou inteligencí. Výsledky ukazují, že pravidlové přístupy nedosáhly stejně dobrých výsledků jako ostatní přístupy. Rozdíl mezi nejlepší konfigurací pravidlového přístupu a nejlepším state-of-the-art DNN přístupem v macro F-score byl mezi 0,14 a 0,23. Mezi hlavní důvody chyb patří nedokonalosti existujících lexikonů, ambiguita a složitá semantika těžko obsáhnutelná omezeným počtem pravidel nebo nezachycení některých vzorů z důvodu neúplných seznamů možných slov. Přístup založený na proximitě dosahoval o trochu lepších výsledků než závistlostní stromy, u kterých je stále prostor pro zlepšení. V porovnání s přístupem založeným na neuronových sítích se pravidlový přístup ukázal jako vysvětlitelnější, rychlejší na spuštění a méně závislý na zdrojích, ale k tomu aby se přiblížil úrovni stávajíchho state-of-the-art by bylo potřeba značného úsilí.
Keywords: sentiment; sentiment analýza; pravidlový přístup; shifter patterns; contextual valence shifters; čeština; lexikální přístup; lexikon; analýza sentimentu

Information about study

Study programme: Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Mathematics

Information on submission and defense

Date of assignment: 8. 11. 2023
Date of submission: 2. 12. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: