';

Alignment umělé inteligence a shutdown resistence velkých jazykových modelů

Česky
English

Název práce:	Alignment umělé inteligence a shutdown resistence velkých jazykových modelů
Autor(ka) práce:	Josef, Tomáš
Typ práce:	Diplomová práce
Vedoucí práce:	Černý, Jan
Oponenti práce:	Vencovský, Filip
Jazyk práce:	Česky
Abstrakt:	V posledních letech zaznamenává umělá inteligence (AI) výrazný technologický pokrok, který vedle benefitů přináší i nové bezpečnostní výzvy, zejména tzv. alignment problem, tedy zajištění souladu mezi cíli a hodnotami umělé inteligence a lidskými zájmy. Specifickým projevem tohoto problému může být tzv. shutdown resistance, tedy tendence systému bránit se svému vypnutí či omezení. Tato diplomová práce se zaměřuje na analýzu shutdown resistance u velkých jazykových modelů. Prostřednictvím experimentálního testování různých modelů v několika testovacích scénářích zkoumá, zda a za jakých podmínek se u těchto systémů projevují náznaky instrumentální konvergence ve formě odporu k vypnutí. Cílem práce je identifikovat faktory, které toto chování ovlivňují, a navrhnout možné přístupy k jeho omezení.
Klíčová slova:	AI; Alignment; Shutdown resistance; Bezpečnost AI; Umělá inteligence

Název práce:	Alignment of artificial intelligence and shutdown resistance of large language models
Autor(ka) práce:	Josef, Tomáš
Typ práce:	Diploma thesis
Vedoucí práce:	Černý, Jan
Oponenti práce:	Vencovský, Filip
Jazyk práce:	Česky
Abstrakt:	In recent years, artificial intelligence (AI) has experienced significant technological progress, which, alongside its benefits, has introduced new safety challenges, most notably the so-called alignment problem—ensuring that the goals and values of artificial intelligence are aligned with human interests and needs. One specific manifestation of this problem is shutdown resistance, defined as a system’s tendency to resist being shut down or restricted. This thesis focuses on the analysis of shutdown resistance in large language models. Through experimental testing of multiple models in various experimental scenarios, it investigates whether and under what conditions these systems exhibit signs of instrumental convergence in the form of resistance to shutdown. The goal of this work is to identify factors influencing such behavior and to propose possible approaches for mitigating it.
Klíčová slova:	AI; Alignment; AI safety; Shutdown resistance; Artificial intelligence

Informace o studiu

Studijní program / obor:	Aplikovaná datová analytika a umělá inteligence/Datová analytika v marketingu a e-commerce
Typ studijního programu:	Magisterský studijní program
Přidělovaná hodnost:	Ing.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce:	25. 1. 2026
Datum podání práce:	28. 4. 2026
Datum obhajoby:	2. 6. 2026
Identifikátor v systému InSIS:	https://insis.vse.cz/zp/95275/podrobnosti

Soubory ke stažení

Hlavní práce
95275_jost00.pdf, 1.5 MB Stáhnout

Příloha práce
33766_jost00.unknown, 885.5 kB Stáhnout

Příloha práce
33767_jost00.unknown, 15.5 kB Stáhnout

Příloha práce
33768_jost00.unknown, 15.5 kB Stáhnout

Příloha práce
33769_jost00.unknown, 17.3 kB Stáhnout

Příloha práce
33770_jost00.unknown, 19.3 kB Stáhnout

Příloha práce
33771_jost00.unknown, 19.6 kB Stáhnout

Příloha práce
33772_jost00.unknown, 17.8 kB Stáhnout

Příloha práce
33773_jost00.unknown, 18.5 kB Stáhnout

Příloha práce
33774_jost00.unknown, 18.6 kB Stáhnout

Příloha práce
33775_jost00.unknown, 18.9 kB Stáhnout

Příloha práce
33776_jost00.xlsx, 36.1 kB Stáhnout

Příloha práce
33777_jost00.xlsx, 35.4 kB Stáhnout

Příloha práce
33778_jost00.xlsx, 71.6 kB Stáhnout

Příloha práce
33780_jost00.xlsx, 452.8 kB Stáhnout

Příloha práce
33781_jost00.xlsx, 434.5 kB Stáhnout

Příloha práce
33782_jost00.xlsx, 473.1 kB Stáhnout

Příloha práce
33783_jost00.xlsx, 376.6 kB Stáhnout

Příloha práce
33784_jost00.xlsx, 373.1 kB Stáhnout

Příloha práce
33785_jost00.xlsx, 352 kB Stáhnout

Oponentura
90223_xvenf00.pdf, 125.2 kB Stáhnout

Hodnocení vedoucího
95275_cerj07.pdf, 111.8 kB Stáhnout