Kamp juturoboteid õppis arvutisimulatsioonis inimeseks olemist
Stanfordi ülikool ja Google korraldasid eksperimendi, milles lasksid 25 ChatGPT-põhisel agendil mikrolinnas iseseisvalt toimetades inimesi jäljendada. Jääb vaid üle oodata, millal jõuab tehisintellekt oma argielu korraldamisel arulagedalt geniaalsete lahendusteni, leiab R2 tehnikakommentaaris Kristjan Port.
Fantaasia peaks olema televiisorist parem. Personaalarvutite algusaegadel oli vähe mänge, aga nende olemasolu kõneles inseneride rikkast fantaasiast. Kandilise pallisurrogaadiga tennise moodi nähtuse või ekraani ülaservast vihmana alasadavate klotsiliste kosmosevallutajate kustutamise varjus, lõid nad ka tekstipõhise seiklusmängu Zork.
USA Massachusettsi Tehnoloogia Instituudis algupäraselt suurarvutile loodud seiklus algas, kui kirjutasid, et vaatad, mis on sinu ees. Arvuti vastab, et ees on koobas. Sina kirjutad, et lähed koopasse. Arvuti vastus kirjeldab pimedust ja hämarat rada. Sealt edasi teatad tekstireal soovist edasi minna. Arvuti hoiatab sind sinu ette ilmunud kolli eest. Seejärel teatad, kummalt poolt teda mõõgaga lööd. Arvuti teatab, kas tulemus oli hea või halb jne.
Praeguses mõttes oli tegu uskumatult aeglase, teksti kirjutamisega juhitud ja pilditu kiviaegse nähtusega. Fotorealistlike väljamõeldistega filmi ja mängumaailma uinutatud meeltes ei tärka hetkekski mõte, et sellise minimaalse suhtluspinnaga mäng ergutab ja treenib uskumatult rikast fantaasiat. Vaimusilmas pimedas ja rõskes koopas sinu suunas ootamatult hoovanud põlenud väävli ving ja kostuv lõrin võivad erutada meeli rohkem, kui ükskõik milline ekraanile ilmuv mängukunstniku joonistatud koll.
Zork oli populaarne. Teiste seas fännas mängu Microsofti loomisega hõivatud Bill Gates. Zorki müüdi sadades tuhandetes flopile pakitud koopiates. Seda tõenäoliselt kopeeriti seda miljonitesse arvutitesse. Mängu kiideti nii mängijate omavahelises siiramas suhtluses kui ka ajakirjanduse veergudel. Zorki koopia on talletatud isegi USA rahvuslikku arhiivi Kongressi raamatukogus. Ühtlasti peetakse mängu paljude tänaste seiklusžanrite eeskujuks.
Zork meenus seoses Stanfordi ülikooli ja Google korraldatud eksperimendiga, milles 25 ChatGPT-põhist agenti asetati vana tekstipõhise mänguga sarnasesse olukorda. Selles polnud ühtegi koobast ega kolli. Sündmusi kujundav keskkonnd oli linnake, milles elas mainitud 25 inimvaimu. Sarnasus Zorkiga oli tekstipõhine olustiku kirjeldus ja liides, millega tegelaskujud väljendasid oma tegevusi. Näiteks isategelane kirjeldab, kuidas tõuseb ta hommikul voodist, peseb hambaid ja embab abikaasat.
Isategelasel, nagu kõigil ülejäänud rollidel, on inimeste nimed. Seega siseneb isa John kööki ja saab teksti kaudu oma virtuaalsesse ettekujutusse teada, et seal viibib ka poegtegelane Eddy. Nende vahel sünnib vestlus. AI John küsib, kas lapserolli täitev AI Eddy magas hästi. Viimane vastab sõbralikult, et uni oli hea. Vestlus jätkub kooliülesannete teemal. Eddy kodutöö onkomponeerida muusikapala, mis peab olema valmis nädala pärast. Eddyle ülesanne meeldib. Johnil on lapse tarmukuse üle hea meel.
Lühidalt, tegu oleks justkui ühe tavalise inimliku hetkega hommikuses köögis. Ainult et selles pole midagi tavalist. Inimese loodud tekstidelt ja kõnedelt teda matkima õppinud tehisintellekt asus end koopiatesse virtualiseerides harjutama inimeseks olemist. Masin ise selle idee peale ei tulnud. Vähemalt peaksime arvama nii eksperimenti tutvustava materjali põhjal.
Praegu on ka veel usutav, et ajend tulenes inimese uudishimust vaadata, mis juhtub. Kas masin õpib ise endaga mängides käituma bioloogilise tegelasena? Vahest isegi põnevam on õppida, kas ja mida teeks masinintellekt teisiti?
Varasemalt on sarnast loogikat rakendatud tehisintellektile male õpetamisel. Esimesed malearvutid õppisid strateegiaid inimeste mängudelt. Siis võis inimene arvutit veel võita. Mänguloogikad olid sedavõrd lähedased. Kui Google AlphaZero võitis mäekõrguselt 100 partiiga kohtumisel malearvutite tipus olnud Stockfishi, oli sellele tutvustatud ainult mängureegleid. Seejärel nuputas masin ise, mida teha ja mängis omaette mõne tunni jooksul miljoneid partiisid. Tänu sellele õppis ta rea ebatavalisi strateegiaid, mis võisid klassikaliselt koolitatud mängurile paista esialgu isegi arulagedatena, kuni oli hilja.
Jutuks oleva 25-pealise ChatGPT iseendaga inimeste simulatsiooni tulemusi analüüsinud inimestest eksperimentaatorid tunnistavad, et kasutatud agendiarhitektuuri komponendid – vaatlus, planeerimine ja refleksioon – aitasid kriitiliselt kaasa agendi käitumise usutavusele. Nad leidsid, et sulandades suuri keelemudeleid taoliste interaktiivsete agentidega, õpitakse looma tehnilisi arhitektuurilisi ja interaktsioonimustreid, mis võimaldavad luua üha usutavamaid inimkäitumise simulatsioone.
Eksperimendis on näide, mille soovib üksik agent alustuseks korraldada sõbrapäevapeo. Järgnevalt inimkeeli suheldes jagavad agendid omavahel kutseid kahe päeva pärast toimuvale sõbralikule koosviibimisele. Suheldes luuakse uusi tutvusi ja kooskõlastatakse, kes ja kuidas tegutsevad, et üheskoos õigel ajal peole ilmuda.
Kõik ei suju veel probleemitult. See ongi ju õppimise olemuseks. Masin aga ei maga ja tema iga sekund kulub õppimisele. Peamiseks piirav tegur on elektrienergia. Sellise simulatsiooni korraldamine nõuab suurt arvutiparki. Olgu meenutuseks analüüs, milles loeti kokku, et keelemudeli BLOOM õpetamiseks vajaliku elektritootmisega paisati keskkonda umbes 24,7 tonni süsiniku.
Nüüd jääb vaid oodata, millal avatar mängib arvutiekraanile teksti sisestades Zorki ja tusatseb hommikuses köögisüžees, et tal polegi enam tuju tegeleda koolitöödega.
Esmaspäevast neljapäevani võib Kristjan Porti tehnoloogiakommentaari kuulda Raadio 2 saates "Portaal".
Toimetaja: Jaan-Juhan Oidermaa
Allikas: "Portaal"