An Analysis of the Presumptions of Intelligent Behaviour of Computer Systems

Thesis title: Analýza předpokladů inteligentního chování počítačových systémů
Author: Vadinský, Ondřej
Thesis type: Disertační práce
Supervisor: Berka, Petr
Opponents: Ivánek, Jiří; Neruda, Roman; Mikulecký, Peter
Thesis language: Česky
Abstract:
Obecná umělá inteligence usiluje o vytvoření umělých systémů schopných řešitmnoho různých a potenciálně v předstihu nepředvídaných úloh či problémů, cožtakové systémy činí svou inteligencí srovnatelné s lidmi. Taková snaha všakvyžaduje existenci vhodných metod vyhodnocování toho, zda a nakolik jsouumělé systémy inteligentní. Tato doktorská disertační práce hledá takové evaluační metody, čímž analyzuje předpoklady inteligentního chování počítačových systémů.Práce si klade tři cíle: 1. vybrat vhodný test inteligence umělých systémůpro bližší vyhodnocení; 2. vyhodnotit vybraný test inteligence umělých systémů;3. vylepšit vybraný test inteligence umělých systémů.Na základě rozsáhlé rešerše literatury pokrývající jak filosofické a kognitivní předpoklady inteligence, tak i formální definice a praktické testy vycházejícíz algoritmické teorie informace, tato práce dochází k závěru, že test algoritmického IQ založený na definici univerzální inteligence je v současné době nejlepšímkandidátem na vhodný prakticky proveditelný test obecné inteligence umělýchsystémů. Tento test však má několik známých limitů. Univerzální inteligence závisí na volbě referenčního Turingova stroje. Mezi prostředími použitými při testuexistují prostředí bez diskriminační síly, které tak nijak nepomáhají vyhodnotitskutečnou inteligenci agenta. Některé aspekty inteligence, např. týkajících se časovosti či výpočetní efektivity, nejsou zahrnuty do celkového skóre.Na základě empirického vyhodnocení testu algoritmického IQ, které spočívalo v provedení experimentů nejen používajících výchozí nastavení, ale i měnícíchvelikosti prostoru akcí a pozorování dostupných pro test, a které bylo dále doplněno o sémantickou analýzu programů prostředí použitých v testu, se podařilopotvrdit a upřesnit výše uvedené známé limity. Výsledky testu algoritmického IQzávisejí také na volbě parametrů referenčního stroje. Ve vzorku programů prostředíse vyskytuje 17 % programů bez diskriminační síly vracejících agentům náhodnéodměny. Empirické vyhodnocení odhalilo i další limity testu. Konvergenční proces AIQ skóre zachycuje také relevantní aspekty inteligence. Nejméně 74 % programů prostředí obsahuje nějakou formu zbytečného kódu, který je spolu s dalšími nedostatky v kódu programů způsoben nijak neoptimalizovaným náhodnýmgenerováním programů do vzorku. Test má vysokou výpočetní náročnost částečně způsobenou neefektivní implementací testovací procedury. Výchozí nastavenítestu může být příliš jednoduché, což pak neumožní odhalit skutečné rozdíly mezitestovanými agenty.Na základě syntézy získaných teoretických a praktických poznatků o limitech testu algoritmického IQ práce navrhla a důkladně diskutovala řadu možností, jak pozorované limity odstranit či minimalizovat. Práce test algoritmickéhoIQ dále přiblížila do podoby vhodné metody pro vyhodnocování obecné inteligenceumělých systémů tím, že vybrané možnosti následujícím způsobem realizovala.Míry vyhodnocující konvergenční dynamiku agentů a dynamiku jejich reakčníchčasů lze použít pro rozlišení mezi agenty s jinak velmi podobným skóre. Metodyvícekolového zpřesňování odhadu a konvergence AIQ skóre umožnují snížení výpočetní náročnosti testu. Implementované rozšíření ukládající průběžné výsledkytestu snižuje výpočetní náročnost výchozí testovací procedury o 30 %, a rozšíření provádějící vícekolovou konvergenci akumulovaných odměn umožňuje snížitvýpočetní náročnost testu o dalších více než 40 % při zachování přesnosti odhadu skóre. Implementovaná rozšíření nástroje pro vzorkování programů prostředídůsledněji odstraňují zbytečný kód z generovaných programů a významně snižujízastoupení programů bez diskriminační síly ve vzorku prostředí. Implementované rozšíření nástroje pro vzorkování programů prostředí umožňuje nastavenímminimální délky programů snížit závislost výsledků testu na referenčním stroji a zvýšit obtížnost testovací procedury. Implementovaná rozšíření byla empirickyověřena sérií experimentů a v relevantních případech také analýzou vlastnostígenerovaných vzorků programů. Toto vyhodnocení prokázalo validnost provedených změn.
Keywords: vyhodnocování inteligence umělých systémů; test algoritmického IQ; obecná umělá inteligence; definice univerzální inteligence
Thesis title: An Analysis of the Presumptions of Intelligent Behaviour of Computer Systems
Author: Vadinský, Ondřej
Thesis type: Dissertation thesis
Supervisor: Berka, Petr
Opponents: Ivánek, Jiří; Neruda, Roman; Mikulecký, Peter
Thesis language: Česky
Abstract:
Artificial General Intelligence seeks to create an artificial system capable of tackling many different and possibly unforeseen tasks or problems thus being comparable in its intelligence to that of a human. Such an endeavour, however, requiressuitable methods that can evaluate whether an artificial system is intelligent, andto what extent. This doctoral thesis searches for such evaluation methods thusanalyzing the presumptions of intelligent behaviour of computer systems.The thesis has three goals: 1) To choose a suitable intelligence test for artificialsystems; 2) To evaluate the chosen intelligence test empirically; and 3) To improvethe test based on its evaluation.Based on an extensive literature overview covering both philosophical andcognitive presumptions of intelligence as well as formal definitions and practical tests of intelligence grounded in Algorithmic Information Theory, this thesisconcludes that the Algorithmic Intelligence Quotient test, derived from UniversalIntelligence definition, is currently the most suitable candidate for a practical intelligence evaluation method of artificial systems. The test, however, has severalknown limitations. Universal Intelligence is dependent on the choice of the reference Turing machine. Among the environments used by the test, there are somethat have no discriminative power and as such do not aid the actual evaluation ofan agent’s intelligence. Some aspects of intelligence, concerning time and computational effectiveness, are not included in the overall score.Based on an empirical assessment of the Algorithmic Intelligence Quotienttest, comprised of experiments conducted using both the default settings and others in which the action and observation spaces were modified, and also a semanticanalysis of the environment programs use, the thesis confirmed and further specified the known limitations of the test. The results of the Algorithmic IntelligenceQuotient test are also dependent on its reference machine settings. Around 17 % ofthe programs within the environment programs sample feature no discriminativepower, returning random rewards to the tested agents. The empirical evaluationalso discovered other limitations of the test. Some relevant aspects of intelligencethat are missing in the final AIQ score are captured by its convergence process.At least 74 % of environment programs contain some form of pointless code thatis together with other problems concerning the environment programs causedby unoptimized random sampling. The test is highly computationally demandingpartially due to an ineffective implementation of its testing procedure. The default settings of the test may be too simple thus failing to sufficiently bring out thedifferences among tested agents.Based on a synthesis of the theoretical and practical findings concerning thelimitations of the Algorithmic Intelligence Quotient test, the thesis proposed andthoroughly discussed several possibilities that eliminate or reduce the observedlimitations. The thesis managed to further advance the Algorithmic IntelligenceQuotient test in the direction of a suitable general intelligence evaluation methodfor artificial systems since it implemented the chosen proposals in the followingways. Measures of convergence dynamics and agents’ reaction times can differentiate among agents with otherwise similar score. Multi-round methods for sufficiently precise estimates and sufficiently converged scores can reduce the test’sconsumption of computational resources. An extension of the test that saves theintermediate results reduces the time required to perform the test by 30 %. An extension of the test that implements multi-round convergence of the total accumulated rewards enables further time reduction by more than 40 % while maintaining the precision of the results estimates. Extensions to the sampling procedureof the test reduce the proportion of the pointless code more consistently and significantly reduce the proportion of non-discriminative environment programs. Anextension to the sampling procedure of the test enables the definition of a minimum length for environment programs in the sample that reduces the dependenceof the test results on the reference machine and increases the difficulty of the testsetting. The implemented extensions were empirically validated by a series of experiments and in relevant cases also by a thorough analysis of sampled programs.The evaluation proved the validity of the conducted changes.
Keywords: Artificial General Intelligence; Universal Intelligence Definition; Algorithmic Intelligence Quotient Test; Evaluating Intelligence of Artificial Systems

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 4. 9. 2012
Date of submission: 11. 5. 2018
Date of defense: 13. 9. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/39351/podrobnosti

Files for download

    Last update: