Textová analýza online diskusií overených a dezinformačných portálov

Název práce: Textová analýza online diskusií overených a dezinformačných portálov
Autor(ka) práce: Špotáková, Veronika
Typ práce: Diplomová práce
Vedoucí práce: Sklenák, Vilém
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Slovensky
Abstrakt:
Táto diplomová práca sa zameriava na textovú analýzu diskusných komentárov publikovaných pod článkami na overených a dezinformačných portáloch. Hlavým cieľom bolo preskúmať, či sa jazykové prejavy používateľov líšia v závislosti od zdroja obsahu a či tieto rozdiely možno využiť na automatickú klasifikáciu komentárov. V práci boli využité techniky spracovania prirodzeného jazyka (NLP), vrátane predspracovania textu, analýzy sentimentu, subjektivity a extrakcie kľúčových slov. Súčasťou výskumu bola aj aplikácia klasifikačných modelov Naive Bayes a BERT. Výsledky ukázali, že hoci medzi komentármi z rôznych typov portálov existujú isté rozdiely v dĺžke, štruktúre a výbere slov, tieto rozdiely nie sú natoľko výrazné, aby umožnili spoľahlivú klasifikáciu len na základe jazykových znakov. Klasifikačné modely dosiahli úspešnosť na úrovni 78-79%, čo naznačuje existenciu prirodzených limitov danej metódy. Práca zároveň identifikuje odporúčania pre ďalší výskum, ktorý by mohol zahŕňať širšie tematické spektrum dát a využitie pokročilých modelov schopných pracovať s iróniou, sarkazmom a slangom. Výstupy tejto práce ponúkajú pohľad na využiteľnosť textovej analýzy online diskusií ako doplnkového nástroja na odhaľovanie dezinformačných médií. Zároveň otvárajú priestor pre ďalší výskum, ktorý by sa mohol zamerať na širšie tematické spektrum, rozšírené dátové zdroje a využitie špecializovaných modelov.
Klíčová slova: Textová analýza; NLP; sentiment; subjektivita; klasifikácia textu; Naive Bayes; BERT; online diskusie; dezinformácie
Název práce: Text analysis of online discussions of verified and disinformation portals
Autor(ka) práce: Špotáková, Veronika
Typ práce: Diploma thesis
Vedoucí práce: Sklenák, Vilém
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Slovensky
Abstrakt:
This diploma thesis focuses on the text analysis of discussion comments published under articles on verified and disinformation portals. The main objective was to examine whether the linguistic expressions of users differ depending on the source of the content and whether these differences can be used for automatic classification of comments. The work employs natural language processing (NLP) techniques, including text preprocessing, sentiment analysis, subjectivity analysis, and keyword extraction. The research also includes the application of classification models Naive Bayes and BERT. The results showed that although there are certain differences in the length, structure, and word choice of comments from diverse types of portals, these differences are not significant enough to enable reliable classification based solely on linguistic features. The classification models achieved an accuracy of 78–79%, indicating the existence of natural limits of this method. The thesis also identifies recommendations for further research, which could include a broader thematic spectrum of data and the use of advanced models capable of handling irony, sarcasm, and slang. The outputs of this thesis offer a perspective on the usability of text analysis of online discussions as a complemmentary tool for detecting disinformation media. At the same time, it opens space for further research, which could focus on a broader range of topics, expanded data sources, and the use of specialized models.
Klíčová slova: NLP; sentiment; subjectivity; text classification; Text analysis; Naive Bayes; BERT; online discussions; disinformation
Název práce: Textová analýza online diskusií overených a dezinformačných portálov
Autor(ka) práce: Špotáková, Veronika
Typ práce: Diplomová práce
Vedoucí práce: Sklenák, Vilém
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Slovensky
Abstrakt:
Tato práce se zaměřuje na textovou analýzu diskusních komentářů publikovaných pod články na ověřených a dezinformačních portálech. Hlavním cílem bylo zjistit, zda se jazykové projevy uživatelů liší v závislosti na zdroji obsahu a zda lze tyto rozdíly využít pro automatickou klasifikaci komentářů. V této práci byly použity techniky zpracování přirozeného jazyka (NLP), včetně předzpracování textu, analýzy sentimentu, subjektivity a extrakce klíčových slov. Součástí výzkumu bylo také použití klasifikačních modelů Naive Bayes a BERT. Výsledky ukázaly, že ačkoli mezi komentáři z různých typů portálů existují určité rozdíly v délce, struktuře a výběru slov, nejsou tyto rozdíly natolik významné, aby umožnily spolehlivou klasifikaci pouze na základě jazykových znaků. Klasifikační modely dosáhly úspěšnosti 78-79 %, což naznačuje existenci přirozených limitů metody. Práce rovněž uvádí doporučení pro další výzkum, který by mohl zahrnovat širší tematický rozsah dat a použití pokročilých modelů schopných zpracovat ironii, sarkasmus a slang. Zjištění této práce nabízejí pohled na užitečnost textové analýzy internetových diskusí jako doplňkového nástroje pro odhalování dezinformačních médií. Zároveň otevírají prostor pro další výzkum, který by se mohl zaměřit na širší tematické spektrum, rozšířené zdroje dat a využití specializovaných modelů.
Klíčová slova: BERT; online diskuze; dezinformace; sentiment; subjektivita; Textová analýza; NLP; klasifikace textu; Naive Bayes

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 31. 10. 2024
Datum podání práce: 12. 4. 2025
Datum obhajoby: 2025

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: