Advanced Rule-Based Approaches for Explainable Sentiment Analysis (for Czech)
Autor(ka) práce:
Immer, Marek
Typ práce:
Diploma thesis
Vedoucí práce:
Víta, Martin
Oponenti práce:
-
Jazyk práce:
English
Abstrakt:
This thesis deals with implementing a rule-based shifter pattern approach for sentiment analysis for the Czech language and comparing it to other modern approaches, mainly the state-of-the-art deep neural network approach. Two algorithms are implemented based on existing research for other languages, one using a proximity approach and the other using dependency trees. Lists of Czech shifters for different patterns like intensificators and deintensificators are collected. Existing sentiment lexicons are used alongside a method for automatic lexicon generation. For evaluation, apart from already existing Czech datasets, two new datasets from an economics domain are created, utilizing automation with generative artificial intelligence for parts of the process. The evaluation shows that the rule-based approach didn't manage to outperform others, instead falling behind. The difference between the best rule-based setup and the best state-of-the-art DNN approach in terms of macro F-score was between 0.14 and 0.23. Some of the main causes of errors included the imperfections of existing Czech lexicons, ambiguity, and complex semantics that are hard to capture with a limited set of rules or not capturing a certain pattern due to an incomplete list of possible words. The proximity approach performed slightly better than the dependency tree one, which still has room to improve. Compared to neural-network approaches, the rule-based approach showed itself as more explainable, faster in execution speed, and less resource-dependent, however, it would require substantial effort to bring it close to the level of the current state-of-the-art in terms of accuracy.
Pokročilé pravidlové přístupy pro vysvětlitelnou analýzu sentimentu (pro češtinu)
Autor(ka) práce:
Immer, Marek
Typ práce:
Diplomová práce
Vedoucí práce:
Víta, Martin
Oponenti práce:
-
Jazyk práce:
English
Abstrakt:
Tato práce se zabývá implementací pravidlového přístupu užívajícího shifter patterns pro analýzu sentimentu v českém jazyce a jeho porovnáním s jinými moderními přístupy, zejména se state-of-the-art přístupy založenými na hlubokých neuronových sítích. Na základě výzkumu z jiných jazyků jsou implementovány dva algoritmy, jeden využívající přístup na proximitě a druhý využívající závislostní stromy. K tomu jsou vytvořeny seznamy českých shifterů pro různé jazykové vzory jako intensifikátory a deintensifikátory. Jsou použity existující lexikony sentimentu spolu s metodou pro automatické generování lexikonů. Pro evaluaci jsou mimo existujících českých datasetů vytvořeny dva nové, které se zaměřují na doménu ekonomiky, za pomoci automatizace určitých procesů generativní umělou inteligencí. Výsledky ukazují, že pravidlové přístupy nedosáhly stejně dobrých výsledků jako ostatní přístupy. Rozdíl mezi nejlepší konfigurací pravidlového přístupu a nejlepším state-of-the-art DNN přístupem v macro F-score byl mezi 0,14 a 0,23. Mezi hlavní důvody chyb patří nedokonalosti existujících lexikonů, ambiguita a složitá semantika těžko obsáhnutelná omezeným počtem pravidel nebo nezachycení některých vzorů z důvodu neúplných seznamů možných slov. Přístup založený na proximitě dosahoval o trochu lepších výsledků než závistlostní stromy, u kterých je stále prostor pro zlepšení. V porovnání s přístupem založeným na neuronových sítích se pravidlový přístup ukázal jako vysvětlitelnější, rychlejší na spuštění a méně závislý na zdrojích, ale k tomu aby se přiblížil úrovni stávajíchho state-of-the-art by bylo potřeba značného úsilí.