Arvuti seljatas inimese piiramata panustega pokkerimängus
Tavalisel mänguarvutil jooksev arvutiprogramm suudab seljatada piiramata panustega mees-mehe vastu toimuvas pokkerimängus järjepidevalt vilunud pokkeriässi. Saavutus kuulutab tehisintellekti võidukäiku mängudes, kus pole kogu lahenduseks tarvilik informatsioon teada.
"Tegelikult võiks võrrelda tervet maailma hiiglasliku mittetäieliku informatsiooniga mänguga. Erinevalt malest või kabest ei saa me tavaliselt otsuseid langetades isegi mitte teoreetiliselt ennustada, kuidas see täpselt tulevikku mõjutada võib. Meil pole lihtsalt selleks vajalikule informatsioonile ligipääsu," selgitas programmi loomist eestvedanud Michael Bowling ERR Novaatorile. Nii võib oodata, et leitud lahendus laiendab tehisintellekti rakendusvõimalusi ka pärismaailmas.
Tehisintellektist pokkerimeister?
DeepStacki võimete näitlikustamises värbas Bowling rahvusvahelise pokkeri liidu kaudu 33 pokkeriässa 17 riigist. Neist 11 mängis eelmise aasta lõpus programmi vastu vähemalt 3000 mängu. Statisliliselt olulisel tasemel suutis DeepStack lüüa neist kümmet. Analüüsi kohaselt oli programmi võidumääraks 486 millisuurblindi mängu kohta (mbb/g). Võrdlusena loetakse pokkerimängijate hulgas märkimisväärseks ülekaaluks juba 50 mbb/g.
Bowling nentis, et masina paremuse veenvalt tõestamine polnud kerge. "Kui ikka pikka aega kehvad kaardid kätte sattuvad, pole tähtis, kui hea mängija oled. Sa kaotad raha," märkis pokkerit ise haruharva mängiv arvutiteadlane.
Statistiliselt peaks heade ja halbade käte osakaalu võrdsustumiseks ning sellest lähtuvalt ühe või teise mängija headuse tõestamiseks mängima umbes 100 000 kätt. (Täpne mängude arv sõltub mängijate tasemevahest). Inimestel ei jätku selleks ei aega ega energiat. Töörühma väljatöötatud muutlikkuse vähendamise tehnika võimaldas teha usaldusväärseid järeldusi aga juba märksa väiksemate mängude arvu juures.
Praktilised rakendused
Bowlingu sõnul on leitud lahendus universaalne. Sarnast strateegiat saaks kasutada ka kõigi teiste mittetäieliku informatsiooniga mängude lahendamiseks, kus on võimalik anda tehisintellekt teatav intuitsioon või sisetunne. Professor lisas, et ka suurem osa reaalses maailmas inimeste lahendatavatest probleemidest on näited mittetäieliku informatsiooni najal tehtavatest valikutest. "Pigem on küsimus selles, kas suudame suruda probleemid algoritmiliselt lahendatavasse vormi," lisas Bowling.
Väga ilmsed näited seostuvad turvalisuse ja julgeolekuga. "Näiteks võime öelda politseile, millal ja kus peaksid nad ressursside maksimaalse tõhususega kasutamiseks patrullima, ilma et seejuures tekiks etteaimatavaid mustreid või kuidas kaitsta taristut terrorirünnakute eest," tõi professor näite. Samuti saab pokkeriprobleemide lahendamisel loodavaid algoritme kasutada tõhusama ravi määramiseks.
Universumi mäng
Töörühma seljatatud väljakutse ulatusest annab aimu mängu suurus. Piiramata panustega mees-mehe vastu toimuv Hold`em võib kulgeda 10160 erineval viisil. Kõigi võimaluste kirjeldamiseks ei leidu piisavalt aatomeid isegi terves universumis. Erinevalt juba lahendatud kabest või malest puudub arvutitel seetõttu võimekus iga kord kõik võimalikud valikud läbi proovida ja siis otsustada, milline neist on tõepoolest parim. Liiatigi ei tea arvuti tema vastase poolt hoitavate kaartide kohta mitte midagi konkreetset. Ainult tõenäosust, et selleks on üks või teine kaart.
Nii on üritanud inimesed otsida võimalusi, kuidas vähendada võimalike otsustuspunktide arvu. Piltlikult teeseldakse erinevate olukordade puhul, et need on samasugused ja neid saab mängida samamoodi. "Tuleb välja, et see on väga halb idee. Vilunud mängija võib nõrkuste leidmise järel piiramatute panustega mängus vastase ühe tõmbega tühjaks teha," rõhutas Kanadas asuva Alberta ülikooli tehisintellekti pioneer.
Näiteks eelmistel aastatel korraldatud inimeste ja masinate vahelistel turniiridel oleks olnud programmide sooritus maailma tippmängijate vastu mõnikord mitmeid kordi parem, kui nad oleks iga mängu alguses lihtsalt pärast panuse panka panemist oma käest lihtsalt loobunud.
Paradigma nihe
Nii ei teinudki Bowling kolleegidega katset leida lahendust tervele pokkerimängule. DeepStacki kasutatav strateegia sarnaneb pigem vilunud pokkerimängijate instinktile. "Laseme sel korraga mõelda vaid paari otsustuspunkti võrra tulevikku. Seejärel üritame vaistlikult enda ja vastase võimalike kaartide ning tehtud panuste põhjal hinnata, kui hea on antud olukord," selgitas teadlane. Korraga peab programm 10160 võimaluse asemel seega läbi vaatama vaid 107 lahendust. See on viie sekundi pikkuse mõtlemisajaga jõukohane juba tüüpilisele mänguarvutile.
Arvutiprogrammile vaistu andmiseks kasutas töörühm süvaõpet. DeepStackil lasti uurida kümneid miljoneid varasemaid mänguolukordi. Tehisnärvivõrkudest andmemassiivide läbi laskmisel õppis programm ära tundma, kui head on erinevad kaardid isegi olukordades, millega polnud nad kunagi varem kokku puutunud. Samal põhimõttel on õpetanud näiteks Facebook ära tundma kassipilte ja Google parandanud oma masintõlget.
Titaanide heitlus
DeepStacki kirjeldav uurimus ilmus vaid kuu pärast Ameerika Ühendriikides toimunud võistlust, kus seljatas arvutiprogramm Libratus samas mängus neli maailma tippmängijat. Kasutatud lahendus erines oluliselt Bowlingu töörühma omast. "Ausalt öeldes olin ma väga üllatunud, et see sellel tasemel üldse töötas," nentis professor.
Programm lähtus juba enne mängu erinevate selle vältel kohatavate olukordade lahendamiseks leitud strateegiatest. Nende väljatöötamiseks oleks kulunud ühe protsessoriga ligikaudu 15 miljonit tundi. Carnegie Melloni ülikooli teadlaste õnneks oli nende käsutuses superarvuti. Mängu käigus uuendas Libratus end vastavalt sellele, kuidasavastasid inimesed selle nõrkusi. Iga käe lõpu lähenedes pandi strateegia lihvimiseks tööle tuhatkonna arvutituumaga superarvuti.
"Meie suudame inimesi võita aga juba tavalisse sülearvutisse sobiva kiibiga. Sõltuvalt sellest, kui palju lisaressursse on parasjagu meie käsutuses, saame muuta enda algoritmi veel oluliselt võimsamaks. Meil pole neidlihtsalt sellisena vaja," lisas Bowling.
Tuleviku horisondid
Kuigi inimene on piiramata panustega mees-mehe vastu toimuvas pokkerimängus selgelt seljatatud, rõhutas professor, et inimesed on arvutist paljudes olukordades veel ees. "Näiteks ei tule tehisintellekt hästi toime olukordades, kus on mängijaid kahest rohkem. See on juba teoreetiliselt teine probleem," sõnas Bowling. Sellegipoolest poleks ta üllatunud, kui arvutid edestavad inimest kuue mängija piiramatute panustega Hold`em pokkeris juba paari aasta pärast
Professor lisas, et DeepStack teadis antud juhul õpitava mängu reegleid juba ette. Neid ise välja nuputades võiks programm jõuda mõneti innovaatilisemate lahendusteni.
Programmi kirjeldati ajakirjas Science.