Analýza obtížnosti prostředí v testu algoritmického IQ

Název práce: Analýza obtížnosti prostředí v testu algoritmického IQ
Autor(ka) práce: Štipl, Jan
Typ práce: Diplomová práce
Vedoucí práce: Vadinský, Ondřej
Oponenti práce: Ivánek, Jiří
Jazyk práce: Česky
Abstrakt:
Tato práce se zabývá objektivním měřením obecných schopností umělých agentů. Současné benchmarky často postrádají jednotnou škálu obtížnosti, zatímco algoritmická teorie informace nabízí matematicky podložené testy inteligence. Test algoritmického IQ (AIQ) ovšem agreguje výkon agenta podle algoritmické pravděpodobnosti programů prostředí, a nikoli podle obtížnosti řešení úloh. Práce si klade tři cíle: 1. představit přístupy k vyhodnocování inteligence umělých agentů s důrazem na AIQ test a alternativní přístupy k měření obtížnosti úloh pomocí Levinovy složitosti řešení, 2. rozšířit AIQ test o Levinovo univerzální hledání řešení úloh, 3. provést analýzu obtížnosti úloh v AIQ testu a aplikovat její výsledky na srovnání dosud testovaných agentů. Práce proto mapuje a hodnotí stávající metodiky, čímž odhaluje jejich slabiny spojené s absencí objektivní škály obtížnosti, a analyzuje teoretický základ testu AIQ. Měření obtížnosti je formalizováno pomocí Levinovy složitosti řešení. Pro nalezení kandidátních řešení je navrženo a implementováno Levinovo vyhledávání včetně optimalizací pro urychlení výpočtu. Tento přístup je následně experimentálně ověřen testováním osmi hypotéz na referenční populaci 14 agentů a v 5 715 prostředích, a to pro referenční stroje řešení BF core a BF oCb. Výsledky ukazují, že navržená funkce obtížnosti je reprodukovatelná i konzistentní a záporně koreluje s výkonem agentů (Pearsonovo r = −0,23). Dále se ukazuje, že původní AIQ skóre je ze 70 % určeno prostředími, která mají obtížnost menší než medián vzorku. V této práci navržené obtížnostně upravené skóre d-AIQ dává nalezeným úrovním obtížnosti stejnou váhu (pro 13 zjištěných úrovní dává ≈7,7 % na úroveň), čímž se od původního AIQ statisticky významně liší. Statisticky významně vyšší rozlišovací schopnost d-AIQ se pak projevila pouze u stroje BF oCb.
Klíčová slova: měření inteligence umělých agentů; Levinovo vyhledávání; Levinova složitost; posilované učení; univerzální inteligence; AIQ; d-AIQ; obtížnost prostředí
Název práce: Analysis of environment difficulty in the algorithmic IQ test
Autor(ka) práce: Štipl, Jan
Typ práce: Diploma thesis
Vedoucí práce: Vadinský, Ondřej
Oponenti práce: Ivánek, Jiří
Jazyk práce: Česky
Abstrakt:
This thesis addresses the objective measurement of the general abilities of artificial agents. Current benchmarks often lack a unified difficulty scale, whereas algorithmic information theory offers general and theoretically grounded tests of intelligence. However, the Algorithmic Intelligence Quotient (AIQ) test aggregates an agent’s performance by the algorithmic probability of environment programs rather than by the difficulty of solving the tasks. The thesis has three goals: 1. to present approaches to evaluating the intelligence of artificial agents with an emphasis on the AIQ test and alternative approaches to measuring task difficulty using Levin complexity of solutions, 2. to extend the AIQ test with Levin’s universal search for task solutions, 3. to perform an analysis of task difficulty in the AIQ test and apply its results to compare previously tested agents. The thesis first maps and evaluates existing intelligence measurement methodologies, which identifies their weaknesses related to the lack of an objective difficulty scale, and analyzes the theoretical foundations of the AIQ test. Difficulty measurement is formalized using the Levin complexity of solutions. To find candidate solutions, Levin search is designed and implemented, including optimizations for accelerating the computation. This approach is subsequently experimentally verified by testing eight hypotheses on a reference population of 14 agents and 5,715 environments for reference solution machines BF core and BF oCb. The results show that the proposed difficulty function is reproducible and consistent, and it negatively correlates with agent performance (Pearson r = −0.23). The original AIQ score is 70 % determined by environments with difficulty lower than the sample median. The difficulty-adjusted score d-AIQ proposed in this thesis assigns equal weight to the observed difficulty levels (giving ≈7.7 % per level for the 13 identified levels), and thus statistically significantly differs from the original AIQ. A statistically significant increase in the discriminative power of d-AIQ was demonstrated only for the BF oCb machine.
Klíčová slova: artificial agent intelligence measurement; AIQ; Levin search; d-AIQ; Levin complexity; environment difficulty; universal intelligence; reinforcement learning

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 3. 10. 2024
Datum podání práce: 25. 6. 2026
Datum obhajoby: 2026

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: