Detecting malicious content on the Internet using machine learning
Thesis title: | Rozpoznávanie škodlivého obsahu na internete pomocou strojového učenia |
---|---|
Author: | Javorský, Adam |
Thesis type: | Bachelor thesis |
Supervisor: | Luc, Ladislav |
Opponents: | Chudán, David |
Thesis language: | Slovensky |
Abstract: | Šírenie škodlivého obsahu na platformách sociálnych médií predstavuje vážny spoločenský problém, ktorý má potenciál ovplyvňovať verejnú mienku a polarizovať diskusiu. Cieľom práce bolo navrhnúť a overiť systém na automatickú detekciu škodlivého obsahu v textových príspevkoch, využívajúci metódy spracovania prirodzeného jazyka (NLP) a transformerové jazykové modely. V rámci riešenia bola realizovaná séria experimentov, v ktorých boli porovnané rôzne architektúry modelov v úlohe binárnej klasifikácie. Dôraz bol kladený najmä na schopnosť zachytiť minoritnú, no spoločensky významnú kategóriu toxických výrokov. Vybraný model bol následne použitý na kvalitatívnu analýzu výstupov na reálnych príkladoch, čím sa overila schopnosť rozpoznať jemné jazykové nuansy vrátane sarkazmu, irónie či latentnej polarizácie. Práca poukazuje aj na výzvy pri implementácii systému v cloudovom prostredí a diskutuje limity použitého prístupu. Výsledky potvrdzujú potenciál jazykových modelov ako nástroja pre efektívnu detekciu škodlivého obsahu a naznačujú možnosti ich integrácie do reálnych aplikácií na podporu bezpečnejšej online komunikácie. |
Keywords: | škodlivý obsah; NLP; BERT; klasifikácia textu |
Thesis title: | Detecting malicious content on the Internet using machine learning |
---|---|
Author: | Javorský, Adam |
Thesis type: | Bachelor thesis |
Supervisor: | Luc, Ladislav |
Opponents: | Chudán, David |
Thesis language: | Slovensky |
Abstract: | The spread of harmful content on social media platforms is a serious social problem that has the potential to influence public opinion and polarize the debate. The aim of the work was to design and verify a system for automatic detection of harmful content in text posts, using natural language processing (NLP) methods and transformer language models. As part of the solution, a series of experiments were carried out in which different model architectures were compared in the task of binary classification. The emphasis was placed mainly on the ability to capture a minority, but socially significant category of toxic statements. The selected model was subsequently used for qualitative analysis of the outputs on real examples, thereby verifying the ability to recognize subtle linguistic nuances, including sarcasm, irony, and latent polarization. The work also points out the challenges of implementing the system in a cloud environment and discusses the limits of the approach used. The results confirm the potential of language models as a tool for effective detection of malicious content and suggest possibilities for their integration into real-world applications to support safer online communication. |
Keywords: | text classification; harmful content; NLP; BERT |
Thesis title: | Rozpoznávanie škodlivého obsahu na internete pomocou strojového učenia |
---|---|
Author: | Javorský, Adam |
Thesis type: | Bakalářská práce |
Supervisor: | Luc, Ladislav |
Opponents: | Chudán, David |
Thesis language: | Slovensky |
Abstract: | Šíření škodlivého obsahu na platformách sociálních médií představuje vážný společenský problém, který má potenciál ovlivňovat veřejné mínění a polarizovat diskusi. Cílem práce bylo navrhnout a ověřit systém pro automatickou detekci škodlivého obsahu v textových příspěvcích, využívající metody zpracování přirozeného jazyka (NLP) a transformerové jazykové modely. V rámci řešení byla realizována série experimentů, ve kterých byly porovnány různé architektury modelů v roli binární klasifikace. Důraz byl kladen zejména na schopnost zachytit minoritní, ale společensky významnou kategorii toxických výroků. Vybraný model byl následně použit pro kvalitativní analýzu výstupů na reálných příkladech, čímž se ověřila schopnost rozpoznat jemné jazykové nuance včetně sarkasmu, ironie či latentní polarizace. Práce poukazuje i na výzvy při implementaci systému v cloudovém prostředí a diskutuje limity použitého přístupu. Výsledky potvrzují potenciál jazykových modelů jako nástroje pro efektivní detekci škodlivého obsahu a naznačují možnosti jejich integrace do reálných aplikací na podporu bezpečnější online komunikace. |
Keywords: | klasifikace textu; škodlivý obsah; BERT; NLP |
Information about study
Study programme: | Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Systems Analysis |
Information on submission and defense
Date of assignment: | 17. 12. 2024 |
---|---|
Date of submission: | 12. 5. 2025 |
Date of defense: | 16. 6. 2025 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/90803/podrobnosti |