Detecting malicious content on the Internet using machine learning

Thesis title:	Rozpoznávanie škodlivého obsahu na internete pomocou strojového učenia
Author:	Javorský, Adam
Thesis type:	Bachelor thesis
Supervisor:	Luc, Ladislav
Opponents:	Chudán, David
Thesis language:	Slovensky
Abstract:	Šírenie škodlivého obsahu na platformách sociálnych médií predstavuje vážny spoločenský problém, ktorý má potenciál ovplyvňovať verejnú mienku a polarizovať diskusiu. Cieľom práce bolo navrhnúť a overiť systém na automatickú detekciu škodlivého obsahu v textových príspevkoch, využívajúci metódy spracovania prirodzeného jazyka (NLP) a transformerové jazykové modely. V rámci riešenia bola realizovaná séria experimentov, v ktorých boli porovnané rôzne architektúry modelov v úlohe binárnej klasifikácie. Dôraz bol kladený najmä na schopnosť zachytiť minoritnú, no spoločensky významnú kategóriu toxických výrokov. Vybraný model bol následne použitý na kvalitatívnu analýzu výstupov na reálnych príkladoch, čím sa overila schopnosť rozpoznať jemné jazykové nuansy vrátane sarkazmu, irónie či latentnej polarizácie. Práca poukazuje aj na výzvy pri implementácii systému v cloudovom prostredí a diskutuje limity použitého prístupu. Výsledky potvrdzujú potenciál jazykových modelov ako nástroja pre efektívnu detekciu škodlivého obsahu a naznačujú možnosti ich integrácie do reálnych aplikácií na podporu bezpečnejšej online komunikácie.
Keywords:	škodlivý obsah; NLP; BERT; klasifikácia textu

Thesis title:	Detecting malicious content on the Internet using machine learning
Author:	Javorský, Adam
Thesis type:	Bachelor thesis
Supervisor:	Luc, Ladislav
Opponents:	Chudán, David
Thesis language:	Slovensky
Abstract:	The spread of harmful content on social media platforms is a serious social problem that has the potential to influence public opinion and polarize the debate. The aim of the work was to design and verify a system for automatic detection of harmful content in text posts, using natural language processing (NLP) methods and transformer language models. As part of the solution, a series of experiments were carried out in which different model architectures were compared in the task of binary classification. The emphasis was placed mainly on the ability to capture a minority, but socially significant category of toxic statements. The selected model was subsequently used for qualitative analysis of the outputs on real examples, thereby verifying the ability to recognize subtle linguistic nuances, including sarcasm, irony, and latent polarization. The work also points out the challenges of implementing the system in a cloud environment and discusses the limits of the approach used. The results confirm the potential of language models as a tool for effective detection of malicious content and suggest possibilities for their integration into real-world applications to support safer online communication.
Keywords:	text classification; harmful content; NLP; BERT

Thesis title:	Rozpoznávanie škodlivého obsahu na internete pomocou strojového učenia
Author:	Javorský, Adam
Thesis type:	Bakalářská práce
Supervisor:	Luc, Ladislav
Opponents:	Chudán, David
Thesis language:	Slovensky
Abstract:	Šíření škodlivého obsahu na platformách sociálních médií představuje vážný společenský problém, který má potenciál ovlivňovat veřejné mínění a polarizovat diskusi. Cílem práce bylo navrhnout a ověřit systém pro automatickou detekci škodlivého obsahu v textových příspěvcích, využívající metody zpracování přirozeného jazyka (NLP) a transformerové jazykové modely. V rámci řešení byla realizována série experimentů, ve kterých byly porovnány různé architektury modelů v roli binární klasifikace. Důraz byl kladen zejména na schopnost zachytit minoritní, ale společensky významnou kategorii toxických výroků. Vybraný model byl následně použit pro kvalitativní analýzu výstupů na reálných příkladech, čímž se ověřila schopnost rozpoznat jemné jazykové nuance včetně sarkasmu, ironie či latentní polarizace. Práce poukazuje i na výzvy při implementaci systému v cloudovém prostředí a diskutuje limity použitého přístupu. Výsledky potvrzují potenciál jazykových modelů jako nástroje pro efektivní detekci škodlivého obsahu a naznačují možnosti jejich integrace do reálných aplikací na podporu bezpečnější online komunikace.
Keywords:	klasifikace textu; škodlivý obsah; BERT; NLP

Information about study

Study programme:	Aplikovaná informatika
Type of study programme:	Bakalářský studijní program
Assigned degree:	Bc.
Institutions assigning academic degree:	Vysoká škola ekonomická v Praze
Faculty:	Faculty of Informatics and Statistics
Department:	Department of Systems Analysis

Information on submission and defense

Date of assignment:	17. 12. 2024
Date of submission:	12. 5. 2025
Date of defense:	16. 6. 2025
Identifier in the InSIS system:	https://insis.vse.cz/zp/90803/podrobnosti

Files for download

Main text
90803_java01.pdf, 751 kB Download

Příloha práce
31472_java01.pdf, 687 kB Download

Opponent's review
85647_xchud01.pdf, 135.8 kB Download

Supervisor's review
90803_lucl01.pdf, 121.5 kB Download