Pokročilé pravidlové přístupy pro vysvětlitelnou analýzu sentimentu (pro češtinu)
Název práce: | Advanced Rule-Based Approaches for Explainable Sentiment Analysis (for Czech) |
---|---|
Autor(ka) práce: | Immer, Marek |
Typ práce: | Diploma thesis |
Vedoucí práce: | Víta, Martin |
Oponenti práce: | Vencovský, Filip |
Jazyk práce: | English |
Abstrakt: | This thesis deals with implementing a rule-based shifter pattern approach for sentiment analysis for the Czech language and comparing it to other modern approaches, mainly the state-of-the-art deep neural network approach. Two algorithms are implemented based on existing research for other languages, one using a proximity approach and the other using dependency trees. Lists of Czech shifters for different patterns like intensificators and deintensificators are collected. Existing sentiment lexicons are used alongside a method for automatic lexicon generation. For evaluation, apart from already existing Czech datasets, two new datasets from an economics domain are created, utilizing automation with generative artificial intelligence for parts of the process. The evaluation shows that the rule-based approach didn't manage to outperform others, instead falling behind. The difference between the best rule-based setup and the best state-of-the-art DNN approach in terms of macro F-score was between 0.14 and 0.23. Some of the main causes of errors included the imperfections of existing Czech lexicons, ambiguity, and complex semantics that are hard to capture with a limited set of rules or not capturing a certain pattern due to an incomplete list of possible words. The proximity approach performed slightly better than the dependency tree one, which still has room to improve. Compared to neural-network approaches, the rule-based approach showed itself as more explainable, faster in execution speed, and less resource-dependent, however, it would require substantial effort to bring it close to the level of the current state-of-the-art in terms of accuracy. |
Klíčová slova: | lexicon-based; lexicon; shifter patterns; contextual valence shifters; czech; rule-based; sentiment; sentiment analysis |
Název práce: | Pokročilé pravidlové přístupy pro vysvětlitelnou analýzu sentimentu (pro češtinu) |
---|---|
Autor(ka) práce: | Immer, Marek |
Typ práce: | Diplomová práce |
Vedoucí práce: | Víta, Martin |
Oponenti práce: | Vencovský, Filip |
Jazyk práce: | English |
Abstrakt: | Tato práce se zabývá implementací pravidlového přístupu užívajícího shifter patterns pro analýzu sentimentu v českém jazyce a jeho porovnáním s jinými moderními přístupy, zejména se state-of-the-art přístupy založenými na hlubokých neuronových sítích. Na základě výzkumu z jiných jazyků jsou implementovány dva algoritmy, jeden využívající přístup na proximitě a druhý využívající závislostní stromy. K tomu jsou vytvořeny seznamy českých shifterů pro různé jazykové vzory jako intensifikátory a deintensifikátory. Jsou použity existující lexikony sentimentu spolu s metodou pro automatické generování lexikonů. Pro evaluaci jsou mimo existujících českých datasetů vytvořeny dva nové, které se zaměřují na doménu ekonomiky, za pomoci automatizace určitých procesů generativní umělou inteligencí. Výsledky ukazují, že pravidlové přístupy nedosáhly stejně dobrých výsledků jako ostatní přístupy. Rozdíl mezi nejlepší konfigurací pravidlového přístupu a nejlepším state-of-the-art DNN přístupem v macro F-score byl mezi 0,14 a 0,23. Mezi hlavní důvody chyb patří nedokonalosti existujících lexikonů, ambiguita a složitá semantika těžko obsáhnutelná omezeným počtem pravidel nebo nezachycení některých vzorů z důvodu neúplných seznamů možných slov. Přístup založený na proximitě dosahoval o trochu lepších výsledků než závistlostní stromy, u kterých je stále prostor pro zlepšení. V porovnání s přístupem založeným na neuronových sítích se pravidlový přístup ukázal jako vysvětlitelnější, rychlejší na spuštění a méně závislý na zdrojích, ale k tomu aby se přiblížil úrovni stávajíchho state-of-the-art by bylo potřeba značného úsilí. |
Klíčová slova: | sentiment; sentiment analýza; pravidlový přístup; shifter patterns; contextual valence shifters; čeština; lexikální přístup; lexikon; analýza sentimentu |
Informace o studiu
Studijní program / obor: | Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra matematiky |
Informace o odevzdání a obhajobě
Datum zadání práce: | 8. 11. 2023 |
---|---|
Datum podání práce: | 2. 12. 2024 |
Datum obhajoby: | 23. 1. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/86469/podrobnosti |