Evaluation of agent SARSA in the algorithmic IQ test
Thesis title: | Vyhodnocení agenta SARSA v testu algoritmického IQ |
---|---|
Author: | Kurek, Pavel |
Thesis type: | Bakalářská práce |
Supervisor: | Vadinský, Ondřej |
Opponents: | Hoza, Petr |
Thesis language: | Česky |
Abstract: | například Turingovým testem, který však není bez problémů. Jeho binární povaha není ideální pro porovnávání velmi podobných systémů, kde je potřeba exaktní metrika. Takovou metriku nabízí AIQ test, který je stěžejním bodem této práce. Bakalářská práce se zabývá analýzou výkonnosti agentů posilovaného učení, konkrétně algoritmů SARSA a SARSA(λ), a jejich následnou evaluací pomocí AIQ testu, který slouží jako praktická aproximace teorie univerzální inteligence. Práce má teoretickou část, která uvádí do obou stěžejních témat syntézou klíčové literatury. Mezi nejdůležitější zdroje se řadí u problematiky vyhodnocování umělých systémů práce od Legg & Veness (2013) a dizertační práce od Vadinského (2018 b). Pro posilované učení byla při syntéze hlavním zdrojem kniha Sutton & Barto (2014), která popisuje každý prvek posilovaného učení do hloubky. Uvedení do kontextu tématiky je nutné pro pochopení práce jako celku. Praktické části práce se věnuji v závěru druhé kapitoly, kde popisuji, jak jsem implementoval agenty, což dále rozvádím ve třetí kapitole. Poslední kapitola se věnuje praktickým experimentům, kde si kladu výzkumné otázky a analyzuji výsledky. •Jak si vede SARSA a její rozšíření SARSA(λ) vůči dalším agentům otestovaným v AIQ testu? •Jak si vede SARSA a její rozšíření SARSA(λ) konkrétně vůči agentům Q-learningu? •Jaký je vliv jednotlivých parametrů na výsledky? Výsledky experimentů ukazují zajímavý fenomén, který by stálo za to více prověřit do budoucna. A to, že agenti SARSA a SARSA(λ) dosahují rozdílných úrovní výkonnosti, přičemž agent SARSA(λ) vykazuje o něco horší výsledky než základní verze SARSA. Mimo zmíněného fenoménu se agent choval podle předpokladu a výkon byl slabší než u agenta Q-learningu. Právě díky předpokládanému chování, které nastalo, můžeme posílit argument pro validitu AIQ testu. Analýza vlivu parametrů odhalila, že hodnoty parametrů mohou výrazně ovlivnit výkonnost agentů hlavně v extrémních hodnotách u stanoveného intervalu. Závěrem práce jsou prezentovány výsledky a představeny způsoby možného navazujícího výzkumu této problematiky. |
Keywords: | vyhodnocování inteligence systémů UI; Univerzální inteligence; umělá inteligence; posilované učení; test algoritmického IQ; SARSA |
Thesis title: | Evaluation of agent SARSA in the algorithmic IQ test |
---|---|
Author: | Kurek, Pavel |
Thesis type: | Bachelor thesis |
Supervisor: | Vadinský, Ondřej |
Opponents: | Hoza, Petr |
Thesis language: | Česky |
Abstract: | Evaluating the intelligence of artificial agents has long taken an anthropocentric route, such as the Turing test, but it is not without problems. Its binary nature is not ideal for comparing very similar systems where exact metrics are needed. Such a metric is offered by the AIQ test, which is the main point of this thesis. This bachelor thesis is concerned with the analysis of the performance of reinforcement learning agents, specifically the SARSA and SARSA(λ) algorithms, and their subsequent evaluation using the AIQ test, which serves as a practical approximation to the theory of universal intelligence. The thesis has a theoretical section that introduces the two main topics by synthesizing key literature. The most important sources for the topic of evaluating artificial systems are Legg & Veness (2013) and Vadinsky's dissertation (2018b). For reinforcement learning, Sutton & Barto (2014) was the main source for the synthesis, describing each element of reinforcement learning in depth. Putting the topic in context is necessary to understand the work as a whole. I discuss the practical part of the thesis at the end of chapter two, where I describe how I implemented the agents, which I further elaborate in chapter three. The last chapter is devoted to the practical experiments, where I ask the research questions and analyze the results. •How does SARSA and its SARSA(λ) extension perform relative to other agents tested in the AIQ? •How does SARSA and its extension SARSA(λ) perform specifically against Q-learning agents? •What is the effect of each parameter on the results? The experimental results show an interesting phenomenon that would be worth investigating more in the future, that the SARSA and SARSA(λ) agents perform at different levels, with the SARSA(λ) agent performing slightly worse than the baseline version of SARSA. Apart from the phenomenon mentioned above, the agent behaved as expected and the performance was weaker than the Q-learning agent. It is because of the assumed behaviour that occurred that we could strengthen the argument for the validity of the AIQ test. The analysis of the effect of parameters revealed that parameter values can significantly affect the performance of agents especially at the extremes at the specified interval. The paper concludes by presenting the results and outlining avenues for possible follow-up research on this issue. |
Keywords: | Universal intelligence; Reinforcement learning; Artificial intelligence; Algorithmic Intelligence Quotient Test; SARSA; aluating Intelligence of AI Systems |
Information about study
Study programme: | Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 2. 1. 2023 |
---|---|
Date of submission: | 27. 6. 2024 |
Date of defense: | 23. 8. 2024 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/83336/podrobnosti |