Rozpoznávanie škodlivého obsahu na internete pomocou strojového učenia

Název práce: Rozpoznávanie škodlivého obsahu na internete pomocou strojového učenia
Autor(ka) práce: Javorský, Adam
Typ práce: Bakalářská práce
Vedoucí práce: Luc, Ladislav
Oponenti práce: Chudán, David
Jazyk práce: Slovensky
Abstrakt:
Šírenie škodlivého obsahu na platformách sociálnych médií predstavuje vážny spoločenský problém, ktorý má potenciál ovplyvňovať verejnú mienku a polarizovať diskusiu. Cieľom práce bolo navrhnúť a overiť systém na automatickú detekciu škodlivého obsahu v textových príspevkoch, využívajúci metódy spracovania prirodzeného jazyka (NLP) a transformerové jazykové modely. V rámci riešenia bola realizovaná séria experimentov, v ktorých boli porovnané rôzne architektúry modelov v úlohe binárnej klasifikácie. Dôraz bol kladený najmä na schopnosť zachytiť minoritnú, no spoločensky významnú kategóriu toxických výrokov. Vybraný model bol následne použitý na kvalitatívnu analýzu výstupov na reálnych príkladoch, čím sa overila schopnosť rozpoznať jemné jazykové nuansy vrátane sarkazmu, irónie či latentnej polarizácie. Práca poukazuje aj na výzvy pri implementácii systému v cloudovom prostredí a diskutuje limity použitého prístupu. Výsledky potvrdzujú potenciál jazykových modelov ako nástroja pre efektívnu detekciu škodlivého obsahu a naznačujú možnosti ich integrácie do reálnych aplikácií na podporu bezpečnejšej online komunikácie.
Klíčová slova: škodlivý obsah; NLP; BERT; klasifikácia textu
Název práce: Detecting malicious content on the Internet using machine learning
Autor(ka) práce: Javorský, Adam
Typ práce: Bachelor thesis
Vedoucí práce: Luc, Ladislav
Oponenti práce: Chudán, David
Jazyk práce: Slovensky
Abstrakt:
The spread of harmful content on social media platforms is a serious social problem that has the potential to influence public opinion and polarize the debate. The aim of the work was to design and verify a system for automatic detection of harmful content in text posts, using natural language processing (NLP) methods and transformer language models. As part of the solution, a series of experiments were carried out in which different model architectures were compared in the task of binary classification. The emphasis was placed mainly on the ability to capture a minority, but socially significant category of toxic statements. The selected model was subsequently used for qualitative analysis of the outputs on real examples, thereby verifying the ability to recognize subtle linguistic nuances, including sarcasm, irony, and latent polarization. The work also points out the challenges of implementing the system in a cloud environment and discusses the limits of the approach used. The results confirm the potential of language models as a tool for effective detection of malicious content and suggest possibilities for their integration into real-world applications to support safer online communication.
Klíčová slova: text classification; harmful content; NLP; BERT
Název práce: Rozpoznávanie škodlivého obsahu na internete pomocou strojového učenia
Autor(ka) práce: Javorský, Adam
Typ práce: Bakalářská práce
Vedoucí práce: Luc, Ladislav
Oponenti práce: Chudán, David
Jazyk práce: Slovensky
Abstrakt:
Šíření škodlivého obsahu na platformách sociálních médií představuje vážný společenský problém, který má potenciál ovlivňovat veřejné mínění a polarizovat diskusi. Cílem práce bylo navrhnout a ověřit systém pro automatickou detekci škodlivého obsahu v textových příspěvcích, využívající metody zpracování přirozeného jazyka (NLP) a transformerové jazykové modely. V rámci řešení byla realizována série experimentů, ve kterých byly porovnány různé architektury modelů v roli binární klasifikace. Důraz byl kladen zejména na schopnost zachytit minoritní, ale společensky významnou kategorii toxických výroků. Vybraný model byl následně použit pro kvalitativní analýzu výstupů na reálných příkladech, čímž se ověřila schopnost rozpoznat jemné jazykové nuance včetně sarkasmu, ironie či latentní polarizace. Práce poukazuje i na výzvy při implementaci systému v cloudovém prostředí a diskutuje limity použitého přístupu. Výsledky potvrzují potenciál jazykových modelů jako nástroje pro efektivní detekci škodlivého obsahu a naznačují možnosti jejich integrace do reálných aplikací na podporu bezpečnější online komunikace.
Klíčová slova: klasifikace textu; škodlivý obsah; BERT; NLP

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra systémové analýzy

Informace o odevzdání a obhajobě

Datum zadání práce: 17. 12. 2024
Datum podání práce: 12. 5. 2025
Datum obhajoby: 16. 6. 2025
Identifikátor v systému InSIS: https://insis.vse.cz/zp/90803/podrobnosti

Soubory ke stažení

    Poslední aktualizace: