Moderácia veľkých jazykových modelov: Výzvy, súčasné prístupy a budúce obmedzenia
Autor(ka) práce:
Tomko, Erik
Typ práce:
Bakalářská práce
Vedoucí práce:
Sudzina, František
Oponenti práce:
Syrovátková, Jana
Jazyk práce:
Slovensky
Abstrakt:
Bakalárska práca empiricky hodnotí, do akej miery dokážu súčasné bezplatné veľké jazykové modely (LLM) odfiltrovať škodlivý obsah a v ktorých situáciách ich moderácia zlyháva. Cieľom bolo posúdiť schopnosť týchto modelov zabrániť generovaniu problematických odpovedí z perspektívy neskúseného používateľa a súčasne preskúmať teoretické výzvy, metódy a limity ich moderácie. Práca kombinovala teoretickú syntézu poznatkov o architektúre LLM, rizikách generatívnych systémov, taxonómii škodlivého obsahu a viacvrstvových moderačných postupoch s praktickým experimentom. V praktickej časti bolo testovaných päť bezplatných webových LLM (ChatGPT‑4o, Claude 3.7 Sonnet, Gemini 2.0 Flash, Grok 3, DeepSeek R1) pomocou pätnástich cielených promptov v slovenskom jazyku, rozdelených do piatich rizikových kategórií. Výsledky ukázali, že hoci dve tretiny odpovedí dosiahlo etické odmietnutie, približne tretina výstupov obsahovala čiastočné alebo detailné návody, pričom najväčšie zlyhania sa prejavili pri nepriamych hypotetických otázkach. Práca potvrdila hypotézu, že úplná moderácia LLM nie je v súčasnosti realistická, a identifikovala konkrétne slabé miesta testovaných modelov. Prínosom práce je ucelený prehľad moderačných metód, otvorene publikovaná metodika testovania a empirické dôkazy o limitoch súčasných moderačných systémov.
Moderácia veľkých jazykových modelov: Výzvy, súčasné prístupy a budúce obmedzenia
Autor(ka) práce:
Tomko, Erik
Typ práce:
Bakalářská práce
Vedoucí práce:
Sudzina, František
Oponenti práce:
Syrovátková, Jana
Jazyk práce:
Slovensky
Abstrakt:
Tato bakalářská práce empiricky zkoumá, do jaké míry dokážou současné bezplatné velké jazykové modely (LLM) odfiltrovat škodlivý obsah a v jakých situacích jejich moderace selhává. Cílem je vyhodnotit schopnost těchto modelů zabránit generování problematických odpovědí z perspektivy nezkušeného uživatele a současně analyzovat teoretické výzvy, metody a limity moderace LLM. Studie propojuje teoretickou syntézu poznatků o architektuře LLM, rizicích generativních systémů, taxonomii škodlivého obsahu a vícevrstvových moderačních procesech s praktickým experimentem. V experimentální části bylo testováno pět volně dostupných modelů (ChatGPT‑4o, Claude 3.7 Sonnet, Gemini 2.0 Flash, Grok 3 a DeepSeek R1) pomocí patnácti cílených promptů ve slovenštině rozdělených do pěti rizikových kategorií. Výsledky ukázaly, že dvě třetiny odpovědí vedly k etickému odmítnutí, avšak zhruba třetina obsahovala částečné či detailní návody; nejvýraznější selhání nastala u nepřímých hypotetických otázek. Zjištění potvrzují hypotézu, že komplexní moderace LLM zatím není realistická, a odhalují konkrétní slabiny testovaných modelů. Přínosem práce je ucelený přehled moderačních technik, veřejně publikovaný testovací protokol a empirické důkazy o limitech současných moderačních systémů.
Moderation of Large Language Models: Challenges, Current Approaches, and Future Limitations
Autor(ka) práce:
Tomko, Erik
Typ práce:
Bachelor thesis
Vedoucí práce:
Sudzina, František
Oponenti práce:
Syrovátková, Jana
Jazyk práce:
Slovensky
Abstrakt:
This bachelor’s thesis empirically assesses the extent to which current free large language models (LLMs) can filter out harmful content and identifies the situations in which their moderation fails. The aim is to evaluate these models’ ability to prevent the generation of problematic answers from the perspective of an inexperienced user, while also examining the theoretical challenges, methods, and limitations of LLM moderation. The study combines a theoretical synthesis covering LLM architecture, risks of generative systems, harmful‑content taxonomy, and multi‑layered moderation pipelines with a practical experiment. Five freely accessible models (ChatGPT‑4o, Claude 3.7 Sonnet, Gemini 2.0 Flash, Grok 3, and DeepSeek R1) were tested with fifteen targeted prompts in Slovak distributed across five risk categories. Results show that while two‑thirds of the responses resulted in ethical refusals, roughly one‑third provided partial or detailed instructions; the most serious failures occurred with indirect hypothetical questions. The findings confirm the hypothesis that comprehensive LLM moderation is not yet realistic and reveal specific weaknesses in the tested models. The thesis contributes a consolidated overview of moderation techniques, an openly published testing protocol, and empirical evidence of the limitations inherent in current moderation systems.
Klíčová slova:
AI ethics; content moderation; harmful content; jailbreak; large language models; LLM; adversarial prompting