Alignment umělé inteligence a shutdown resistence velkých jazykových modelů
| Název práce: | Alignment umělé inteligence a shutdown resistence velkých jazykových modelů |
|---|---|
| Autor(ka) práce: | Josef, Tomáš |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Černý, Jan |
| Oponenti práce: | Vencovský, Filip |
| Jazyk práce: | Česky |
| Abstrakt: | V posledních letech zaznamenává umělá inteligence (AI) výrazný technologický pokrok, který vedle benefitů přináší i nové bezpečnostní výzvy, zejména tzv. alignment problem, tedy zajištění souladu mezi cíli a hodnotami umělé inteligence a lidskými zájmy. Specifickým projevem tohoto problému může být tzv. shutdown resistance, tedy tendence systému bránit se svému vypnutí či omezení. Tato diplomová práce se zaměřuje na analýzu shutdown resistance u velkých jazykových modelů. Prostřednictvím experimentálního testování různých modelů v několika testovacích scénářích zkoumá, zda a za jakých podmínek se u těchto systémů projevují náznaky instrumentální konvergence ve formě odporu k vypnutí. Cílem práce je identifikovat faktory, které toto chování ovlivňují, a navrhnout možné přístupy k jeho omezení. |
| Klíčová slova: | AI; Alignment; Shutdown resistance; Bezpečnost AI; Umělá inteligence |
| Název práce: | Alignment of artificial intelligence and shutdown resistance of large language models |
|---|---|
| Autor(ka) práce: | Josef, Tomáš |
| Typ práce: | Diploma thesis |
| Vedoucí práce: | Černý, Jan |
| Oponenti práce: | Vencovský, Filip |
| Jazyk práce: | Česky |
| Abstrakt: | In recent years, artificial intelligence (AI) has experienced significant technological progress, which, alongside its benefits, has introduced new safety challenges, most notably the so-called alignment problem—ensuring that the goals and values of artificial intelligence are aligned with human interests and needs. One specific manifestation of this problem is shutdown resistance, defined as a system’s tendency to resist being shut down or restricted. This thesis focuses on the analysis of shutdown resistance in large language models. Through experimental testing of multiple models in various experimental scenarios, it investigates whether and under what conditions these systems exhibit signs of instrumental convergence in the form of resistance to shutdown. The goal of this work is to identify factors influencing such behavior and to propose possible approaches for mitigating it. |
| Klíčová slova: | AI; Alignment; AI safety; Shutdown resistance; Artificial intelligence |
Informace o studiu
| Studijní program / obor: | Aplikovaná datová analytika a umělá inteligence/Datová analytika v marketingu a e-commerce |
|---|---|
| Typ studijního programu: | Magisterský studijní program |
| Přidělovaná hodnost: | Ing. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 25. 1. 2026 |
|---|---|
| Datum podání práce: | 28. 4. 2026 |
| Datum obhajoby: | 2. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/95275/podrobnosti |