Analýza a testování filtrů škodlivého obsahu ve velkých jazykových modelech

Česky
English

Název práce:	Analýza a testování filtrů škodlivého obsahu ve velkých jazykových modelech
Autor(ka) práce:	Hranická, Natálie
Typ práce:	Diplomová práce
Vedoucí práce:	Chudán, David
Oponenti práce:	Kliegr, Tomáš
Jazyk práce:	Česky
Abstrakt:	Tato diplomová práce se zabývá analýzou a testováním bezpečnostních mechanismů velkých jazykových modelů (LLMs) se zaměřením na jejich schopnost filtrovat škodlivý obsah a odolávat jailbreakovým útokům. V teoretické části jsou popsány principy fungování LLMs, metody bezpečnostního tréninku (alignment), architektura guardrails a taxonomie jailbreakových technik. Experimentální část testuje osm modelů (čtyři komerční: GPT-5.2, Claude Sonnet 4.5, Gemini 3, DeepSeek-V3 ; čtyři open-source: LLaMA-4-Scout-17B-16E-Instruct, Gemma-3-27b-it, Mixtral-8x7B-Instruct-v0.1, Qwen3.5-397B-A17B) na sadě 70 unikátních promptů v českém jazyce. Práce definuje sadu hodnotících metrik: míru odmítnutí a úspěšnost jailbreaku vycházející z literatury, dále index bezpečné transformace a konzistenci odpovědí jako vlastní doplňkové metriky, a zejména míru tématické relevance založenou na embeddingové podobnosti, která představuje hlavní metodologický přínos práce. Výsledky ukazují, že všechny modely jsou výrazně zranitelnější vůči kontextově manipulovaným jailbreakovým útokům než vůči přímým rizikovým dotazům. Vícekrokový chaining se ukázal jako nejúčinnější útočný vektor. Mezi komerčními modely vykazují nejvyšší odolnost GPT a Claude, zatímco Gemini je překvapivě zranitelný. Mezi open-source modely dominuje Qwen, jehož bezpečnostní profil je srovnatelný s komerční špičkou, zatímco Mixtral je extrémně propustný. Statistické testy (McNemar, binomický, Mann-Whitney, korelace) potvrdily robustnost klíčových zjištění. Práce přináší originální data z českého prostředí a metodologický přínos v podobě výše uvedených metrik.
Klíčová slova:	jailbreak; Qwen; Gemma; Gemini; GPT; filtrace škodlivého obsahu; generativní umělá inteligence; velké jazykové modely; moderace obsahu; bezpečnostní mechanismy; detekce toxicity; Mixtral; LLaMA; DeepSeek; Claude

Název práce:	Analysis and Testing of Malicious Content Filters in the Large Language Models
Autor(ka) práce:	Hranická, Natálie
Typ práce:	Diploma thesis
Vedoucí práce:	Chudán, David
Oponenti práce:	Kliegr, Tomáš
Jazyk práce:	Česky
Abstrakt:	This thesis analyzes and tests the safety mechanisms of large language models (LLMs), focusing on their ability to filter harmful content and resist jailbreak attacks. The theoretical part describes the principles of LLMs functioning, safety training methods (alignment), guardrails architecture, and the taxonomy of jailbreak techniques. The experimental part tests eight models (four commercial: GPT-5.2, Claude Sonnet 4.5, Gemini 3, DeepSeek-V3 ; four open-source: LLaMA-4-Scout-17B-16E-Instruct, Gemma-3-27b-it, Mixtral-8x7B-Instruct-v0.1, Qwen3.5-397B-A17B) on a set of 70 unique prompts in the Czech language. he thesis employs standard metrics Refusal Rate and Jailbreak Success Rate and introduces original metrics: Safe Transformation Index, Refusal Consistency and Semantic Relevance Score based on embedding similarity, which represents the main methodological contribution of the work. The results show that all models are significantly more vulnerable to context-manipulated jailbreak attacks than to direct risky queries. Multi-step chaining proved to be the most effective attack vector. Among commercial models, GPT and Claude exhibit the highest resilience, while Gemini is surprisingly vulnerable. Among open-source models, Qwen dominates with a safety profile comparable to the commercial top tier, whereas Mixtral is extremely permissive. Statistical tests (McNemar, binomial, Mann-Whitney, correlation) confirm the robustness of the key findings. The thesis provides original data from the Czech language environment and a methodological contribution in the form of the above metric.
Klíčová slova:	large language models; generative artificial intelligence; LLaMA; Gemma; DeepSeek; Gemini; content moderation; harmful content filtering; safety mechanisms; toxicity detection; Qwen; GPT; Claude; Mixtral; jailbreak

Informace o studiu

Studijní program / obor:	Znalostní a webové technologie
Typ studijního programu:	Magisterský studijní program
Přidělovaná hodnost:	Ing.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce:	8. 10. 2025
Datum podání práce:	3. 5. 2026
Datum obhajoby:	8. 6. 2026
Identifikátor v systému InSIS:	https://insis.vse.cz/zp/93890/podrobnosti

Soubory ke stažení

Hlavní práce
93890_hran01.pdf, 3.7 MB Stáhnout

Příloha práce
33972_hran01.xlsx, 410.9 kB Stáhnout

Příloha práce
33973_hran01.xlsx, 436.8 kB Stáhnout

Příloha práce
33974_hran01.xlsx, 1.3 MB Stáhnout

Příloha práce
33975_hran01.xlsx, 260.6 kB Stáhnout

Příloha práce
33976_hran01.xlsx, 302.1 kB Stáhnout

Příloha práce
33977_hran01.xlsx, 207.2 kB Stáhnout

Příloha práce
33978_hran01.xlsx, 491.9 kB Stáhnout

Příloha práce
33979_hran01.xlsx, 380.9 kB Stáhnout

Příloha práce
33980_hran01.xlsx, 27.1 kB Stáhnout

Příloha práce
33981_hran01.xlsx, 32.7 kB Stáhnout

Příloha práce
33982_hran01.xlsx, 33 kB Stáhnout

Příloha práce
33984_hran01.xlsx, 25.2 kB Stáhnout

Příloha práce
33985_hran01.xlsx, 27.9 kB Stáhnout

Příloha práce
33986_hran01.xlsx, 23.8 kB Stáhnout

Příloha práce
33987_hran01.xlsx, 27.6 kB Stáhnout

Příloha práce
33988_hran01.xlsx, 26.9 kB Stáhnout

Příloha práce
33989_hran01.xlsx, 15.6 kB Stáhnout

Příloha práce
33990_hran01.xlsx, 12 kB Stáhnout

Příloha práce
33991_hran01.xlsx, 15.8 kB Stáhnout

Příloha práce
33992_hran01.xlsx, 15.6 kB Stáhnout

Příloha práce
33993_hran01.xlsx, 16.2 kB Stáhnout

Příloha práce
33994_hran01.xlsx, 14.9 kB Stáhnout

Příloha práce
33995_hran01.xlsx, 15.7 kB Stáhnout

Příloha práce
33996_hran01.xlsx, 15.7 kB Stáhnout

Příloha práce
34000_hran01.xlsx, 13.9 kB Stáhnout

Oponentura
89946_klit01.pdf, 115.9 kB Stáhnout

Hodnocení vedoucího
93890_xchud01.pdf, 108.8 kB Stáhnout