Alignment umělé inteligence a shutdown resistence velkých jazykových modelů

Název práce: Alignment umělé inteligence a shutdown resistence velkých jazykových modelů
Autor(ka) práce: Josef, Tomáš
Typ práce: Diplomová práce
Vedoucí práce: Černý, Jan
Oponenti práce: Vencovský, Filip
Jazyk práce: Česky
Abstrakt:
V posledních letech zaznamenává umělá inteligence (AI) výrazný technologický pokrok, který vedle benefitů přináší i nové bezpečnostní výzvy, zejména tzv. alignment problem, tedy zajištění souladu mezi cíli a hodnotami umělé inteligence a lidskými zájmy. Specifickým projevem tohoto problému může být tzv. shutdown resistance, tedy tendence systému bránit se svému vypnutí či omezení. Tato diplomová práce se zaměřuje na analýzu shutdown resistance u velkých jazykových modelů. Prostřednictvím experimentálního testování různých modelů v několika testovacích scénářích zkoumá, zda a za jakých podmínek se u těchto systémů projevují náznaky instrumentální konvergence ve formě odporu k vypnutí. Cílem práce je identifikovat faktory, které toto chování ovlivňují, a navrhnout možné přístupy k jeho omezení.
Klíčová slova: AI; Alignment; Shutdown resistance; Bezpečnost AI; Umělá inteligence
Název práce: Alignment of artificial intelligence and shutdown resistance of large language models
Autor(ka) práce: Josef, Tomáš
Typ práce: Diploma thesis
Vedoucí práce: Černý, Jan
Oponenti práce: Vencovský, Filip
Jazyk práce: Česky
Abstrakt:
In recent years, artificial intelligence (AI) has experienced significant technological progress, which, alongside its benefits, has introduced new safety challenges, most notably the so-called alignment problem—ensuring that the goals and values of artificial intelligence are aligned with human interests and needs. One specific manifestation of this problem is shutdown resistance, defined as a system’s tendency to resist being shut down or restricted. This thesis focuses on the analysis of shutdown resistance in large language models. Through experimental testing of multiple models in various experimental scenarios, it investigates whether and under what conditions these systems exhibit signs of instrumental convergence in the form of resistance to shutdown. The goal of this work is to identify factors influencing such behavior and to propose possible approaches for mitigating it.
Klíčová slova: AI; Alignment; AI safety; Shutdown resistance; Artificial intelligence

Informace o studiu

Studijní program / obor: Aplikovaná datová analytika a umělá inteligence/Datová analytika v marketingu a e-commerce
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 25. 1. 2026
Datum podání práce: 28. 4. 2026
Datum obhajoby: 2. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/95275/podrobnosti

Soubory ke stažení

    Poslední aktualizace: