Tehisintellekt seljatas pokkerimängijate koorekihi ({{commentsTotal}})

Kui iga žetooni väärtus oleks olnud dollar, võitnuks programm tunnis järjepidevalt umbes 1000 dollarit.
Kui iga žetooni väärtus oleks olnud dollar, võitnuks programm tunnis järjepidevalt umbes 1000 dollarit. Autor/allikas: Michał Parzuchowski/Unsplash

Uus programm suudab võita professionaale järjepidevalt piiramata panustega ja mitme mängijaga Texas Hold'em pokkeris. Saavutus näitlikustab tehisintellekti võimekust lahendada probleeme, kus pole teada kogu selleks tarvilik info.

Viimastel kümnenditel on seljatanud arvutiprogrammid inimesi erinevates täiusliku informatsiooniga mängudes nagu kabe, male ja go. Kuigi nendes vilumuse saavutamine võib võtta inimestel aastaid, on mängud võrreldes päris eluga lihtsad. Kogu vastase seljatamiseks ja probleemi lahendamiseks tarvilik info on avalik ning kõigile teada.

Pokkeris ei tea aga keegi kindlalt, millised kaardid on pakis ja millised vastase käes. Erinevalt malest on parima võimaliku teguviisi valimine puhtalt arvutusvõimsuse põhjalt pea võimatu. Isegi juhul kui Hold'em pokkerit mängib vaid kaks mängijat ning panuste suurus ja tõstete arv piiratud, leidub erinevaid mängu lõpplahendusi 316 000 000 000 000 000.

Sellegipoolest on leidnud teadlased viimastel aastatel algoritme, millega seljatada elukutselisi pokkeri mängijaid mees mehe vastu mängudes nii piiratud kui piiramata panustega pokkeris.

"Selle asemel kuue mängijaga mängu mängimine nõuab põhimõttelisi muudatusi selles, kuidas tehisintellekt oma strateegiaid välja töötab," rõhutas Noam Brown, värske uuringu valmimise ajal Carnegie Melloni Ülikoolis doktorikraadi teinud arvutiteadlane, kes töötab nüüd tehisintellekti kallal Facebokis.

Vastilmunud töö põhjal on väljakutse seljatatud. Brown lasi koos Tuomas Sandholmiga loodud tehisintellektil Pluribus mängida esmalt viie profi vastu 12 päeva jooksul 10 000 kätt. Varasemates mängudes pokkeriga enam kui miljoni dollari võitnud mängijate motiveerimiseks jagati nende vahel 50 000 dollarit. Teises voorus mängisid kaks professionaali eraldi laudades viie Pluribuse vastu.

Keskmiselt võitis Pluribus iga saja käe kohta viie suure pimepanuse jagu žetoone. Kuigi see ei pruugi tunduda kuigi suure marginaalina, saab pidada seda autorite sõnul teiste pokkerimängijate taseme tõttu otsustavaks võiduks. "Päris raha puhul oleks roboti võidu suurus võrreldav tunnis umbes tuhande dollari teenimisega," selgitas Brown.

Üliinimlike võimetega tehisintellekti loomiseks lasid Brown ja Sandholm mängida sellel inimlike taustateadmisteta iseenda vastu triljoneid käsi. Kui esialgu olid tehisintellekti tehtavad otsused juhuslikud, jõudis Pluribus peagi strateegiateni, mis aitasid võita sellel üha rohkem raha. Inimlike nõrkuste vähendamiseks õppis see neid vaheldama ja bluffima.

Võimalike otsuste arvu vähendamiseks ei üritanud algoritm ette ennustada mitte terve mängu tulemust, vaid ainult vastaste paari järgmist käiku. Lähenemisviis võimaldas õpetada programmi välja oluliselt väiksema aja- ja energiakuluga kui eelnevate mängude puhul.

"Üliinimliku tasemeni jõudmiseks tuleb meil kulutada vähem kui 150 dollari jagu arvutusvõimsust. Reaalajas piisab programmi jooksutamiseks vaid kahest kesktöötlusseadmest," märkis Brown. Võrdlusena kasutas go valitsevat maailmameistrit võitnud programm AlphaGo 2016. aasta matši ajal 1920 kesktöötlusseadet ja 280 graafikakaarti.

Algoritmi kiiret arengut märkasid ka Pluribuse vastu mänginud pokkerimängijad. "Ma olin üks esimesi, kes robotit testis, mistõttu sain ma näha ka selle varasemaid versioone. Robot arenes keskpärasest ja võidetavast mängijast maailma tippudega võistelda suutvaks mängijaks paari nädalaga," sõnas Darren Elias, üks programmi vastu mänginud professionaalidest uurimusega samal ajal avaldatud meenutustes.

Elukutselised mängijad viitasid, et mitmeid programmi leitud strateegiaid kasutasid professionaalid juba varem. Erinevalt päris inimestest tegi Pluribus seda aga järjepidevamalt ja vaheldas eri mängustiile sagedamini ja juhuslikumalt.

Muu hulgas kinnitas programmi käitumine, et esimeses voorus pole suure pimepanusega lihtsalt kaasa tulemisest kasu mitte kellelegi peale väikese pimepanuse tegija.

Teisalt kasutas see täiendava raha võitmiseks ka tavaliselt nõrkadeks strateegiateks peetavaid lahendusi. Neist üks hõlmab eelnevas voorus vastase panusega kaasa tulemise järel järgmises voorus ise sama panuse tegemist. Tavaloogika alusel on mõtet panust tehes seda pigem tõsta.

Lisaks pokkeri kui mängu arendamisele võiks olla pokkeri vallas tehtavast teadusstööst olla kasu mujalgi. Seda saab rakendada näiteks pettuste avastamiseks, küberurvalisuse vallas ja ka isejuhtivate autode navigatsioonilahenduste loomiseks," märkis Brown.

Uurimus ilmus ajakirjas Science. Pluribuse vastu mängisid Jimmy Chou, Seth Davies, Michael Gagliano, Anthony Gregg, Dong Kim, Jason Les, Linus Loeliger, Daniel McAulay, Greg Merson, Nicholas Petrangelo, Sean Ruane, Trevor Savage, Jacob Toole, Chris Ferguson ja Darren Elias.



Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: