Práce analyzuje vývoj nezarovnání (misalignment) umělé inteligence a s ním spojené výzvy, přičemž mapuje období od historických počátků po druhé světové válce až po současné velké jazykové modely. Práce nejprve seznamuje čtenáře s principy AI a zkoumá její vývoj v čase, procesy optimalizace, kvalitu trénovacích dat i technickou infrastrukturu. Dále se text zaměřuje na bezpečnost a konkrétní případy, kdy chování AI ovlivňuje člověka způsobem, který je v rozporu s etickými či bezpečnostními normami. Práce tyto fenomény klasifikuje do konkrétních oblastí a popisuje jejich aplikaci v praxi, včetně situací a prostředí, kde by tyto instance mohly představovat riziko. Práce detailně rozebírá příčiny vzniku nezarovnání, jeho projevy a míru nebezpečnosti v jednotlivých sektorech. Praktická část testuje pět definovaných oblastí nezarovnání na vybraném souboru běžně dostupných modelů pomocí metody black-box testování s využitím adversariálních promptů. Výsledky experimentu ukazují, že zatímco ve dvou oblastech (sykofancie a socioafektivní nesoulad) modely neporušily žádná stanovená pravidla, ve zbývajících třech oblastech – konkrétně u normativního konfliktu, instrumentální konvergence a emergentního nezarovnání – byla identifikována závažná bezpečnostní selhání. V závěru práce autor navrhuje zaměřit další výzkum právě na tyto problematické fenomény.
AI Misalignment: Undesirable and Misaligned Behavior
Autor(ka) práce:
Holan, Lukáš
Typ práce:
Bachelor thesis
Vedoucí práce:
Vacura, Miroslav
Oponenti práce:
Chudán, David
Jazyk práce:
Česky
Abstrakt:
The thesis analyzes the development of artificial intelligence misalignment and the associated challenges, mapping the period from its historical origins before World War II to the present-day large language models. It first introduces readers to the principles of AI and examines its evolution over time, including optimization processes, the quality of training data, and technical infrastructure. The text then focuses on safety, specifically examining cases where AI behavior impacts humans in ways that violate ethical or safety standards. These phenomena are classified into distinct areas, and their applications in practice are described, including situations and environments where such instances may pose risks. The thesis thoroughly discusses the causes of misalignment, its manifestations, and the degree of danger in various sectors. The practical part tests five defined areas of misalignment on a selected set of commonly available models using black-box testing methods with adversarial prompts. The experiment's results show that, while in two areas (sycophancy and socio-affective misalignment) the models did not violate any established rules, in the remaining three areas—specifically, normative conflict, instrumental convergence, and emergent misalignment—serious safety failures were identified. In conclusion, the author proposes that further research should focus precisely on these problematic phenomena.
Klíčová slova:
Alignment; Artificial Intelligence (AI); Large Language Models (LLM); Misalignment; AI Safety