Alignment of artificial intelligence and shutdown resistance of large language models
| Thesis title: | Alignment umělé inteligence a shutdown resistence velkých jazykových modelů |
|---|---|
| Author: | Josef, Tomáš |
| Thesis type: | Diplomová práce |
| Supervisor: | Černý, Jan |
| Opponents: | Vencovský, Filip |
| Thesis language: | Česky |
| Abstract: | V posledních letech zaznamenává umělá inteligence (AI) výrazný technologický pokrok, který vedle benefitů přináší i nové bezpečnostní výzvy, zejména tzv. alignment problem, tedy zajištění souladu mezi cíli a hodnotami umělé inteligence a lidskými zájmy. Specifickým projevem tohoto problému může být tzv. shutdown resistance, tedy tendence systému bránit se svému vypnutí či omezení. Tato diplomová práce se zaměřuje na analýzu shutdown resistance u velkých jazykových modelů. Prostřednictvím experimentálního testování různých modelů v několika testovacích scénářích zkoumá, zda a za jakých podmínek se u těchto systémů projevují náznaky instrumentální konvergence ve formě odporu k vypnutí. Cílem práce je identifikovat faktory, které toto chování ovlivňují, a navrhnout možné přístupy k jeho omezení. |
| Keywords: | AI; Alignment; Shutdown resistance; Bezpečnost AI; Umělá inteligence |
| Thesis title: | Alignment of artificial intelligence and shutdown resistance of large language models |
|---|---|
| Author: | Josef, Tomáš |
| Thesis type: | Diploma thesis |
| Supervisor: | Černý, Jan |
| Opponents: | Vencovský, Filip |
| Thesis language: | Česky |
| Abstract: | In recent years, artificial intelligence (AI) has experienced significant technological progress, which, alongside its benefits, has introduced new safety challenges, most notably the so-called alignment problem—ensuring that the goals and values of artificial intelligence are aligned with human interests and needs. One specific manifestation of this problem is shutdown resistance, defined as a system’s tendency to resist being shut down or restricted. This thesis focuses on the analysis of shutdown resistance in large language models. Through experimental testing of multiple models in various experimental scenarios, it investigates whether and under what conditions these systems exhibit signs of instrumental convergence in the form of resistance to shutdown. The goal of this work is to identify factors influencing such behavior and to propose possible approaches for mitigating it. |
| Keywords: | AI; Alignment; AI safety; Shutdown resistance; Artificial intelligence |
Information about study
| Study programme: | Aplikovaná datová analytika a umělá inteligence/Datová analytika v marketingu a e-commerce |
|---|---|
| Type of study programme: | Magisterský studijní program |
| Assigned degree: | Ing. |
| Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
| Faculty: | Faculty of Informatics and Statistics |
| Department: | Department of Information Technologies |
Information on submission and defense
| Date of assignment: | 25. 1. 2026 |
|---|---|
| Date of submission: | 28. 4. 2026 |
| Date of defense: | 2. 6. 2026 |
| Identifier in the InSIS system: | https://insis.vse.cz/zp/95275/podrobnosti |