Tartu teadlased panid arvutimängudega tehisintellekti õppima

Arvutimängu mängimiseks on tavaliselt vaja vähemalt ühte osalejat, kelleks enamasti on inimene. Mis saab aga siis, kui mängu ohjad haarab iseõppiv tehisintellekt, mille vastas on samuti tehisintellekt? Google DeepMindi eksperimendi uuele tasemele viinud Tartu ülikooli teadlased näitasid, et tehismõistuste omavaheline mõõduvõtmine jätab inimmängijate võimed kaugele seljataha.
Kui Google omandas mullu mitmesaja miljoni euro eest 2011. aastal Londonis aluse pandud tehisintellekti arendava ettevõtte DeepMind, olid paljud valdkonnaga kursis olevad inimesed ootusärevil. Alles 2013. aastal käis samal firmal tulemusteta kosjas Facebook. DeepMindi asutajaks on arvutimängudes revolutsiooni teinud Demis Hassabis ning alginvestoriteks ja nõunikeks olid Tesla juht Elon Musk ning Skype asutajaliige Jaan Tallinn.
Idufirma on nimelt võtnud oma eesmärgiks teadvuse probleemi lahendamise. 2013. detsembris astus ettevõte sammu edasi ja avaldas artikli, mis käsitleb süvaõpet (deep learning) seitsme legendaarse Atari videomängu mängimisel. Lihtsamalt öeldes mängis spetsiaalselt ehitatud süsteem katse-eksitus meetodil, saades infot mängu seisu kohta ainult kuvarilt ning oli võimeline tänu tagasisidele õppima nii, et tulemused aina paranesid. Hiljem juba 49 mängu puhul katsetatud süsteem suutis kohati näidata selliseid tulemusi, mis jätsid inimesest ekspertmängijate oskused kaugele seljataha.
Eksperimendiga tutvunud Tartu ülikooli arvutiteaduse instituudi arvutusliku neuroteaduse labori kaheksa liiget võtsid nõuks eksperimenti korrata. Rühma ühe liikme, doktorantuuris bioloogilistele ja tehisnärvivõrkudele keskendunud Ardi Tampuu sõnul tundus DeepMindi lähenemine kõige vingema asjana, mida masinõppes seni on tehtud. Sestap avaldas teadlaste rühm mullu septembris artikli, milles selgitasid DeepMindi katse toimemehhanismi ning kutsusid huvilisi testi kordama, et avatud lähtekoodil põhinevast kordusprojektist tõuseks kasu kogu teadlaskonnale.
Uurimisrühma liikme, tehisintellekti ja masinõppe doktorant Tambet Matiisen ütles, et DeepMindi katse näol oli tegu esimese sammuga üldise tehisintellekti ehk general artificial intelligence suunal. “See programm suutis ilma muudatusteta õppida mängima väga paljusid erinevaid videomänge, saades sisendinfoks ainult ekraanipildi antud mängust ning info preemia kohta, mis tähendas, et tema skoor selles mängus suurenes,” kirjeldas Matiisen.
Eksperimenti korrata tahtnud tartlased polnud Tampuu sõnul algul üldse kursis tehisnärvivõrkude, tasupõhise õppe ega GPU-de ehk graafikakaartide kasutamisega. “DeepMindi lahendus oli innovatiivne seetõttu, et nad ühendasid omavahel tasupõhise õppe ja sügavad närvivõrgud,” lausus Matiisen. Ehkki analoogseid programme on tehtud ka varem, pole ükski neist õppinud mängima puhtalt ekraanipildilt ehk pikslitest tuleva info põhjal.
“Enne kui ta õpib mängu mängima, peab ta õppima nägema ja mängus eri objekte eristama, et see lauake seal all olen mina ja selle palli pean sihtima nende asjade pihta,” selgitas Tampuu programmi tööpõhimõtet. Kuna algul polnud DeepMindi kasutatud lähtekood avalik, tuli TÜ teadlastel see teises programmeerimiskeeles taasluua. Lähtekoodi avalikuks saades otsustasid nad jätkata edasist tööd sellega. “Antud alal ongi asjad väga nüanssides kinni, kui sul on kuskil mingi väike trikk, siis võib ka su programm poole paremini töötada” rääkis Tampuu.
Tartlased võtsid eesmärgiks panna omavahel mängima kaks tehisintellekti, kasutades katses mitmeid erinevaid mängureegleid. Paljude läbivaadatud mängude seast valiti välja tennist jäljendav Pong. Põhjuseks asjaolu, et tegu on tuntud ja hõlpsalt arusaadava mänguga, mis vajab vähemalt kahte mängijat. Esimese tulemusena tõi Matiisen välja asjaolu, et nende poolt kasutatud meetod osutus töötavaks: “Mitme mängija puhul ei ole edukas õppimine garanteeritud – kui üks mängija õpib paremini mängima, siis peab ka teine järele õppima.”
Näide sellest, kuidas tehisintellekt töötab võistlevas režiimis:
Pong tõi esile ka mitmeid üllatusi. Nimelt rakendasid teadlased programmi puhul ka kooperatiivset strateegiat, kus kaks mängijat üritavad palli mängus hoida niikaua kui võimalik. “Üks strateegia, mille tehisintellektid leiutasid, oli see, et nad ei pannudki palli mängu, jättes servimata. Teisena aga kasutasid nad palliga ekraani ülemisse serva kolimist ning põrgatasid seal omavahel palli seni, kuni mäng kokku jooksis,” ütles Matiisen.
Seevastu võistlevas režiimis õppisid tehisintellektid suhteliselt raskeid palle päästma, lüües palli ka suhteliselt kiiresti, mis tähendab, et mõlemad pooled mängisid üsna hästi. “Jälgisime statistikat, mitu korda keskmiselt nad palli puutuvad, kuidas nad löövad ja kaua läheb servimiseks aega,” rääkis doktorant. Teadlased võrdlesid katse käigus erinevaid strateegiaid ja tasuskeeme, sealhulgas nii koostööle kui ka konkurentsile viivaid. Samuti uuriti, mis juhtub koostöö ja võistlemise vahepeal ja kuidas toimub üleminek võistlevalt käitumiselt koostööle.
Näide sellest, kuidas tehisintellekt tegutseb koostöörežiimis:
Eksperimendi tulemusi saab rakendada argieluski, üheks näiteks on tasupõhine õpe. See tähendab, et kui agent teeb midagi õigesti ja õpib selle käigus, siis saab ta aeg-ajalt selle eest preemiat. Matiisen ütleb, et tasupõhist õpet saab kasutada veebilehitsemise lihtsustamiseks: “Kui teen Google’is otsingu ja klikin lingil, mis otsingu tulemusena antakse, siis lingi välja pakkunud algoritm saab selle eest tasu või preemia ning järjelikult pakkus ta välja õige lingi.” Järelikult on võimalik õpetada otsingualgoritmi välja pakkuma paremaid otsitulemusi.
Tampuu hinnangul võib tasupõhist õpet kasutada ka robootikas, seda enam, et antud valdkonnas tegutseb jõuliselt Google. Seega võivad robotid asuda preemiapõhiselt õppima keskkonnas, mis on arvutimängust märgatavalt keerulisem. Toimetulekuks peab masin õppima keskkonnas kehtivad reeglid ja otsima positiivseid tasusid, vältides negatiivseid.
Katse järel peab Tampuu peamiseks saavutuseks seda, et töörühmal õnnestus hiljuti avaldatud artiklis näidata tehismõistuste koostöö- ning õppimisvõimet samas keskkonnas: “Siin on oluline, et kui teine agent oma käitumist muudab, siis esimese agendi jaoks keskkond muutub, see pole enam stabiilne ning see teebki õppimise raskemaks.” Matiiseni sõnul oleks edaspidi põnev uurida tehisintellekti, mis tugineb mängude mängimisel sisemisele motivatsioonile ehk uudishimule, mitte ainult refleksile nagu praegu. See aitaks teadlase hinnangul tehismõistusel hakkama saada loogikat ja keerulisemaid strateegiaid nõudvates keskkondades.