';

Alignment of artificial intelligence and shutdown resistance of large language models

Česky
English

Thesis title:	Alignment umělé inteligence a shutdown resistence velkých jazykových modelů
Author:	Josef, Tomáš
Thesis type:	Diplomová práce
Supervisor:	Černý, Jan
Opponents:	Vencovský, Filip
Thesis language:	Česky
Abstract:	V posledních letech zaznamenává umělá inteligence (AI) výrazný technologický pokrok, který vedle benefitů přináší i nové bezpečnostní výzvy, zejména tzv. alignment problem, tedy zajištění souladu mezi cíli a hodnotami umělé inteligence a lidskými zájmy. Specifickým projevem tohoto problému může být tzv. shutdown resistance, tedy tendence systému bránit se svému vypnutí či omezení. Tato diplomová práce se zaměřuje na analýzu shutdown resistance u velkých jazykových modelů. Prostřednictvím experimentálního testování různých modelů v několika testovacích scénářích zkoumá, zda a za jakých podmínek se u těchto systémů projevují náznaky instrumentální konvergence ve formě odporu k vypnutí. Cílem práce je identifikovat faktory, které toto chování ovlivňují, a navrhnout možné přístupy k jeho omezení.
Keywords:	AI; Alignment; Shutdown resistance; Bezpečnost AI; Umělá inteligence

Thesis title:	Alignment of artificial intelligence and shutdown resistance of large language models
Author:	Josef, Tomáš
Thesis type:	Diploma thesis
Supervisor:	Černý, Jan
Opponents:	Vencovský, Filip
Thesis language:	Česky
Abstract:	In recent years, artificial intelligence (AI) has experienced significant technological progress, which, alongside its benefits, has introduced new safety challenges, most notably the so-called alignment problem—ensuring that the goals and values of artificial intelligence are aligned with human interests and needs. One specific manifestation of this problem is shutdown resistance, defined as a system’s tendency to resist being shut down or restricted. This thesis focuses on the analysis of shutdown resistance in large language models. Through experimental testing of multiple models in various experimental scenarios, it investigates whether and under what conditions these systems exhibit signs of instrumental convergence in the form of resistance to shutdown. The goal of this work is to identify factors influencing such behavior and to propose possible approaches for mitigating it.
Keywords:	AI; Alignment; AI safety; Shutdown resistance; Artificial intelligence

Information about study

Study programme:	Aplikovaná datová analytika a umělá inteligence/Datová analytika v marketingu a e-commerce
Type of study programme:	Magisterský studijní program
Assigned degree:	Ing.
Institutions assigning academic degree:	Vysoká škola ekonomická v Praze
Faculty:	Faculty of Informatics and Statistics
Department:	Department of Information Technologies

Information on submission and defense

Date of assignment:	25. 1. 2026
Date of submission:	28. 4. 2026
Date of defense:	2. 6. 2026
Identifier in the InSIS system:	https://insis.vse.cz/zp/95275/podrobnosti

Files for download

Main text
95275_jost00.pdf, 1.5 MB Download

Příloha práce
33766_jost00.unknown, 885.5 kB Download

Příloha práce
33767_jost00.unknown, 15.5 kB Download

Příloha práce
33768_jost00.unknown, 15.5 kB Download

Příloha práce
33769_jost00.unknown, 17.3 kB Download

Příloha práce
33770_jost00.unknown, 19.3 kB Download

Příloha práce
33771_jost00.unknown, 19.6 kB Download

Příloha práce
33772_jost00.unknown, 17.8 kB Download

Příloha práce
33773_jost00.unknown, 18.5 kB Download

Příloha práce
33774_jost00.unknown, 18.6 kB Download

Příloha práce
33775_jost00.unknown, 18.9 kB Download

Příloha práce
33776_jost00.xlsx, 36.1 kB Download

Příloha práce
33777_jost00.xlsx, 35.4 kB Download

Příloha práce
33778_jost00.xlsx, 71.6 kB Download

Příloha práce
33780_jost00.xlsx, 452.8 kB Download

Příloha práce
33781_jost00.xlsx, 434.5 kB Download

Příloha práce
33782_jost00.xlsx, 473.1 kB Download

Příloha práce
33783_jost00.xlsx, 376.6 kB Download

Příloha práce
33784_jost00.xlsx, 373.1 kB Download

Příloha práce
33785_jost00.xlsx, 352 kB Download

Opponent's review
90223_xvenf00.pdf, 125.2 kB Download

Supervisor's review
95275_cerj07.pdf, 111.8 kB Download