Tehisintellekt seljatas inimesed esimest korda ülikeerukas e-spordi mängus

Ettevõtte DeepMind algoritm AlphaStar suutis lüüa populaarses reaalaja strateegiamängus Starcraft II suuremat osa inimestest tipptasemel mängijaid. Saavutus aitab kaasa päris maailmas erilise vaevata otsuseid teha suutvate tehisintellektide loomisele.
Kosmilist sõda jäljendav Starcraft on kordades keerukam malest, go'st, Atari mängudest ja Texas Hold'em pokkerist. Reaalajas toimuvas mängus saab teha igal ajahetkel 1026 valikut. Korraga tuleb kontrollida sadu üksuseid ja ehitisi. Mängijatel on tavaliselt vastase kohta vähem informatsiooni kui pokkeris, sarnanedes päris maailmale iseloomulikele olukordadele.
Ühtlasi on tegu kivi-paber-käärid tüüpi mänguga. Vastaste seljatamiseks pole võimalik kasutada ühte täiuseni lihvitud strateegiat. Korraga tuleb mõelda nii lühi- kui ka pikaajalise mänguplaani peale.
Keerukusele vaatamata suutis AlphaStar 44 päeva kestnud treeningperioodi järel edestada 99,8 protsenti inimestest StarCrafti mängijaid. "AlphaStar on esimene tehisintellektil põhinev süsteem, mis saavutas professionaalselt mängitava e-spordi alal inimestest tippmängijatele võrreldava võimekuse, ilma et mängu oleks lihtsustatud," sõnas DeepMindi juhtivteadlane David Silver tulemuste tutvustamiseks korraldatud pressikonverentsil.
Tipptaseme saavutamiseks kasutatud lahendustest võib tõusta kasu iseõppivate algoritmide loomisel laiemalt.
Uudsed lahendused
Google'i emafirma omanduses olev ettevõte Deepmind on kasutanud varem tehisintellekti jaoks ülesaamatult raskeks peetud ülesannete lahendamiseks stiimulõpet. Tarkvara lähtub otsuseid tehes sellest, kui suur on otsuse tegemisel saadav preemia. Piltlikult üritab käituda koer viisil, et saaks piitsa asemel võimalikult palju konte. Tehisintellekt kaalub selleks esmalt kõige tõenäolisemaid järgmisi käike ja hindab neist igaühega seonduvat võiduvõimalust.
Mitmed algoritmid miljoneid ja miljardeid kordi üksteise vastu mängima pannes on suutnud need viimastel aastatel inimliku sekkumiseta õpetada endale mõne päevaga selgeks muu hulgas male, jaapani male shogi ja go. Seejuures leidsid algoritmid inimeste jaoks uudseid lahendusi ja mängisid lõpuks paremini kui valitsevad inimestest suurmeistrid.
DeepMind kasutas sarnast lähenemist ka StarCrafti puhul. Aasta alguseks suutis inimmängijate strateegiaid analüüsinud AlphaStar lüüa kerge pettuse abil 95 protsenti tipptasemel mängivatest inimestest. Erinevalt inimestest nägi algoritm korraga kõigi oma üksuste vaatevälja. Kuigi DeepMindi töörühm piiras ka sekundis tehtavate otsuste hulka, sai see teha sekundis 50 liigutust või iga kolme sekundi kohta 15 otsust sekundis. See kompab inimeste keskendumisvõime piire.
Tõeline murdepunkt saabus uue treeningstrateegia rakendamisel. Deepmind ei lasknud mängida üksteise vastu ainult võita proovivatel algoritmidel, vaid ka oma tugevamate kaaslaste nõrkusi paljastavatel tehisintellektidel. Sarnaselt proovivad parandada oma mänguoskust inimmängijad.
Tulemusena valminud AlphaStari reinkarnatsioon oli laiapõhjalisemate oskustega ja tuli edujalt toime rohkemates olukordades. Tehisintellekt saavutas suurmeistri taseme mängides kõigi kolme StarCraft II rassiga ja selle reiting oli lõpuks parem 99,8 protsendist inimmängijatest. Seda isegi juhul, kui tehisintellekt piirdus ainult inimeste piiratud vaateväljaga.
"AlphaStar edendab meie arusaamist tehisintellektist mitmel moel. Mitme agendi treenimine võistluslikus liigas võib viia väga keerukates keskkondades paremate tulemusteni. Ainult jäljendava õppe rakendamisega võib saavutada aga varasemalt oodatust paremaid tulemusi. Olen põnevil, kuidas saame hakata rakendama tehnikaid reaalelulistes väljakutsetes, näiteks tehisintellektisüsteemide töökindluse parandamisel," selgitas Orion Vinyals, AlphaStari projektijuht.
Inimene teiselt planeedilt
Elukutseline StarCraft II mängija Dario "TLO" Wünsch pidas tehisintellekti mängustiili ja strateegiat äärmiselt muljetavaldavaks. "Kuigi AlphaStari kontroll (oma üksuste üle) on suurepärane ja täpne, ei tundu see üliinimlik, kohe kindlasti mitte tasemel, mida ei saaks saavutada teoreetiliselt inimesed. Üldiselt tundub see väga õiglane, tundub nagu mängiks see päris StarCrafti mängu," laiendas Wünsch.
Teine professionaalne mängija Diego "Kelazhur" Schwimer pidas algoritmi mängustiili kujuteldamatult ebaharilikuks. "Mõned AlphaStari strateegiad võivad tunduda esmapilgul veidrad, kuid ma lihtsalt pean mõtlema, kas kõigi selle erinevate mängustiilide kombineerimine võib olla tegelikult mängu mängimiseks parim viis," mõtiskles Schwimer.
Nõnda on tundnud tehisintellekti ja masinõppe pakutavate uudsete vaatenurkade vastu huvi ka erinevate riikide relvajõud. Näiteks selle aasta märtsis ilmutas selle võimalusi analüüsiva ülevaate USA sõjavägi.
Hiljuti autonoomsete relvasüsteemide keelustamise võimalusi lahkaval ÜRO konverentsil märkisid seevastu DeepMindi esindajad, et taoliste meetodite relvakontrollisüsteemide loomiseks oleks äärmiselt ohtlik. Tehtavad otsused oleksid ennustamatud ja ootamatul viisid loovad. See oleks vastuolus kaasaegse sõjaõigusega.
Seetõttu on tõotanud DeepMind sarnaselt mitmele teistele suurtele tehnoloogiaettevõtetele keelduda selles vallas relvajõududega koostöö tegemisest.
Uurimus ilmus ajakirjas Nature.
Toimetaja: Jaan-Juhan Oidermaa