Text analysis of online discussions of verified and disinformation portals

Thesis title:	Textová analýza online diskusií overených a dezinformačných portálov
Author:	Špotáková, Veronika
Thesis type:	Diploma thesis
Supervisor:	Sklenák, Vilém
Opponents:	Svátek, Vojtěch
Thesis language:	Slovensky
Abstract:	Táto diplomová práca sa zameriava na textovú analýzu diskusných komentárov publikovaných pod článkami na overených a dezinformačných portáloch. Hlavým cieľom bolo preskúmať, či sa jazykové prejavy používateľov líšia v závislosti od zdroja obsahu a či tieto rozdiely možno využiť na automatickú klasifikáciu komentárov. V práci boli využité techniky spracovania prirodzeného jazyka (NLP), vrátane predspracovania textu, analýzy sentimentu, subjektivity a extrakcie kľúčových slov. Súčasťou výskumu bola aj aplikácia klasifikačných modelov Naive Bayes a BERT. Výsledky ukázali, že hoci medzi komentármi z rôznych typov portálov existujú isté rozdiely v dĺžke, štruktúre a výbere slov, tieto rozdiely nie sú natoľko výrazné, aby umožnili spoľahlivú klasifikáciu len na základe jazykových znakov. Klasifikačné modely dosiahli úspešnosť na úrovni 78-79%, čo naznačuje existenciu prirodzených limitov danej metódy. Práca zároveň identifikuje odporúčania pre ďalší výskum, ktorý by mohol zahŕňať širšie tematické spektrum dát a využitie pokročilých modelov schopných pracovať s iróniou, sarkazmom a slangom. Výstupy tejto práce ponúkajú pohľad na využiteľnosť textovej analýzy online diskusií ako doplnkového nástroja na odhaľovanie dezinformačných médií. Zároveň otvárajú priestor pre ďalší výskum, ktorý by sa mohol zamerať na širšie tematické spektrum, rozšírené dátové zdroje a využitie špecializovaných modelov.
Keywords:	Textová analýza; NLP; sentiment; subjektivita; klasifikácia textu; Naive Bayes; BERT; online diskusie; dezinformácie

Thesis title:	Textová analýza online diskusií overených a dezinformačných portálov
Author:	Špotáková, Veronika
Thesis type:	Diplomová práce
Supervisor:	Sklenák, Vilém
Opponents:	Svátek, Vojtěch
Thesis language:	Slovensky
Abstract:	Tato práce se zaměřuje na textovou analýzu diskusních komentářů publikovaných pod články na ověřených a dezinformačních portálech. Hlavním cílem bylo zjistit, zda se jazykové projevy uživatelů liší v závislosti na zdroji obsahu a zda lze tyto rozdíly využít pro automatickou klasifikaci komentářů. V této práci byly použity techniky zpracování přirozeného jazyka (NLP), včetně předzpracování textu, analýzy sentimentu, subjektivity a extrakce klíčových slov. Součástí výzkumu bylo také použití klasifikačních modelů Naive Bayes a BERT. Výsledky ukázaly, že ačkoli mezi komentáři z různých typů portálů existují určité rozdíly v délce, struktuře a výběru slov, nejsou tyto rozdíly natolik významné, aby umožnily spolehlivou klasifikaci pouze na základě jazykových znaků. Klasifikační modely dosáhly úspěšnosti 78-79 %, což naznačuje existenci přirozených limitů metody. Práce rovněž uvádí doporučení pro další výzkum, který by mohl zahrnovat širší tematický rozsah dat a použití pokročilých modelů schopných zpracovat ironii, sarkasmus a slang. Zjištění této práce nabízejí pohled na užitečnost textové analýzy internetových diskusí jako doplňkového nástroje pro odhalování dezinformačních médií. Zároveň otevírají prostor pro další výzkum, který by se mohl zaměřit na širší tematické spektrum, rozšířené zdroje dat a využití specializovaných modelů.
Keywords:	BERT; online diskuze; dezinformace; sentiment; subjektivita; Textová analýza; NLP; klasifikace textu; Naive Bayes

Thesis title:	Text analysis of online discussions of verified and disinformation portals
Author:	Špotáková, Veronika
Thesis type:	Diploma thesis
Supervisor:	Sklenák, Vilém
Opponents:	Svátek, Vojtěch
Thesis language:	Slovensky
Abstract:	This diploma thesis focuses on the text analysis of discussion comments published under articles on verified and disinformation portals. The main objective was to examine whether the linguistic expressions of users differ depending on the source of the content and whether these differences can be used for automatic classification of comments. The work employs natural language processing (NLP) techniques, including text preprocessing, sentiment analysis, subjectivity analysis, and keyword extraction. The research also includes the application of classification models Naive Bayes and BERT. The results showed that although there are certain differences in the length, structure, and word choice of comments from diverse types of portals, these differences are not significant enough to enable reliable classification based solely on linguistic features. The classification models achieved an accuracy of 78–79%, indicating the existence of natural limits of this method. The thesis also identifies recommendations for further research, which could include a broader thematic spectrum of data and the use of advanced models capable of handling irony, sarcasm, and slang. The outputs of this thesis offer a perspective on the usability of text analysis of online discussions as a complemmentary tool for detecting disinformation media. At the same time, it opens space for further research, which could focus on a broader range of topics, expanded data sources, and the use of specialized models.
Keywords:	NLP; sentiment; subjectivity; text classification; Text analysis; Naive Bayes; BERT; online discussions; disinformation

Information about study

Study programme:	Znalostní a webové technologie
Type of study programme:	Magisterský studijní program
Assigned degree:	Ing.
Institutions assigning academic degree:	Vysoká škola ekonomická v Praze
Faculty:	Faculty of Informatics and Statistics
Department:	Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment:	31. 10. 2024
Date of submission:	12. 4. 2025
Date of defense:	11. 6. 2025
Identifier in the InSIS system:	https://insis.vse.cz/zp/90196/podrobnosti

Files for download

Main text
90196_spov01.pdf, 1.7 MB Download

Opponent's review
85638_svatek.pdf, 147.5 kB Download

Supervisor's review
90196_sklenak.pdf, 106 kB Download