Thesis title: |
Textová analýza online diskusií overených a dezinformačných portálov |
Author: |
Špotáková, Veronika |
Thesis type: |
Diploma thesis |
Supervisor: |
Sklenák, Vilém |
Opponents: |
Svátek, Vojtěch |
Thesis language: |
Slovensky |
Abstract: |
Táto diplomová práca sa zameriava na textovú analýzu diskusných komentárov publikovaných pod článkami na overených a dezinformačných portáloch. Hlavým cieľom bolo preskúmať, či sa jazykové prejavy používateľov líšia v závislosti od zdroja obsahu a či tieto rozdiely možno využiť na automatickú klasifikáciu komentárov. V práci boli využité techniky spracovania prirodzeného jazyka (NLP), vrátane predspracovania textu, analýzy sentimentu, subjektivity a extrakcie kľúčových slov. Súčasťou výskumu bola aj aplikácia klasifikačných modelov Naive Bayes a BERT. Výsledky ukázali, že hoci medzi komentármi z rôznych typov portálov existujú isté rozdiely v dĺžke, štruktúre a výbere slov, tieto rozdiely nie sú natoľko výrazné, aby umožnili spoľahlivú klasifikáciu len na základe jazykových znakov. Klasifikačné modely dosiahli úspešnosť na úrovni 78-79%, čo naznačuje existenciu prirodzených limitov danej metódy. Práca zároveň identifikuje odporúčania pre ďalší výskum, ktorý by mohol zahŕňať širšie tematické spektrum dát a využitie pokročilých modelov schopných pracovať s iróniou, sarkazmom a slangom. Výstupy tejto práce ponúkajú pohľad na využiteľnosť textovej analýzy online diskusií ako doplnkového nástroja na odhaľovanie dezinformačných médií. Zároveň otvárajú priestor pre ďalší výskum, ktorý by sa mohol zamerať na širšie tematické spektrum, rozšírené dátové zdroje a využitie špecializovaných modelov. |
Keywords: |
Textová analýza; NLP; sentiment; subjektivita; klasifikácia textu; Naive Bayes; BERT; online diskusie; dezinformácie |
Thesis title: |
Text analysis of online discussions of verified and disinformation portals |
Author: |
Špotáková, Veronika |
Thesis type: |
Diploma thesis |
Supervisor: |
Sklenák, Vilém |
Opponents: |
Svátek, Vojtěch |
Thesis language: |
Slovensky |
Abstract: |
This diploma thesis focuses on the text analysis of discussion comments published under articles on verified and disinformation portals. The main objective was to examine whether the linguistic expressions of users differ depending on the source of the content and whether these differences can be used for automatic classification of comments. The work employs natural language processing (NLP) techniques, including text preprocessing, sentiment analysis, subjectivity analysis, and keyword extraction. The research also includes the application of classification models Naive Bayes and BERT. The results showed that although there are certain differences in the length, structure, and word choice of comments from diverse types of portals, these differences are not significant enough to enable reliable classification based solely on linguistic features. The classification models achieved an accuracy of 78–79%, indicating the existence of natural limits of this method. The thesis also identifies recommendations for further research, which could include a broader thematic spectrum of data and the use of advanced models capable of handling irony, sarcasm, and slang. The outputs of this thesis offer a perspective on the usability of text analysis of online discussions as a complemmentary tool for detecting disinformation media. At the same time, it opens space for further research, which could focus on a broader range of topics, expanded data sources, and the use of specialized models. |
Keywords: |
NLP; sentiment; subjectivity; text classification; Text analysis; Naive Bayes; BERT; online discussions; disinformation |
Thesis title: |
Textová analýza online diskusií overených a dezinformačných portálov |
Author: |
Špotáková, Veronika |
Thesis type: |
Diplomová práce |
Supervisor: |
Sklenák, Vilém |
Opponents: |
Svátek, Vojtěch |
Thesis language: |
Slovensky |
Abstract: |
Tato práce se zaměřuje na textovou analýzu diskusních komentářů publikovaných pod články na ověřených a dezinformačních portálech. Hlavním cílem bylo zjistit, zda se jazykové projevy uživatelů liší v závislosti na zdroji obsahu a zda lze tyto rozdíly využít pro automatickou klasifikaci komentářů. V této práci byly použity techniky zpracování přirozeného jazyka (NLP), včetně předzpracování textu, analýzy sentimentu, subjektivity a extrakce klíčových slov. Součástí výzkumu bylo také použití klasifikačních modelů Naive Bayes a BERT. Výsledky ukázaly, že ačkoli mezi komentáři z různých typů portálů existují určité rozdíly v délce, struktuře a výběru slov, nejsou tyto rozdíly natolik významné, aby umožnily spolehlivou klasifikaci pouze na základě jazykových znaků. Klasifikační modely dosáhly úspěšnosti 78-79 %, což naznačuje existenci přirozených limitů metody. Práce rovněž uvádí doporučení pro další výzkum, který by mohl zahrnovat širší tematický rozsah dat a použití pokročilých modelů schopných zpracovat ironii, sarkasmus a slang. Zjištění této práce nabízejí pohled na užitečnost textové analýzy internetových diskusí jako doplňkového nástroje pro odhalování dezinformačních médií. Zároveň otevírají prostor pro další výzkum, který by se mohl zaměřit na širší tematické spektrum, rozšířené zdroje dat a využití specializovaných modelů. |
Keywords: |
BERT; online diskuze; dezinformace; sentiment; subjektivita; Textová analýza; NLP; klasifikace textu; Naive Bayes |
Information about study
Study programme: |
Znalostní a webové technologie |
Type of study programme: |
Magisterský studijní program |
Assigned degree: |
Ing. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
31. 10. 2024 |
Date of submission: |
12. 4. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.