Artikkel on rohkem kui viis aastat vana ja kuulub arhiivi, mida ERR ei uuenda.

Arvuti seljatas inimese piiramata panustega pokkerimängus

Neist 11 mängis eelmise aasta lõpus programmi vastu vähemalt 3000 mängu. Autor/allikas: worldpokertour/Creative Commons

Tavalisel mänguarvutil jooksev arvutiprogramm suudab seljatada piiramata panustega mees-mehe vastu toimuvas pokkerimängus järjepidevalt vilunud pokkeriässi. Saavutus kuulutab tehisintellekti võidukäiku mängudes, kus pole kogu lahenduseks tarvilik informatsioon teada.

"Tegelikult võiks võrrelda tervet maailma hiiglasliku mittetäieliku informatsiooniga mänguga. Erinevalt malest või kabest ei saa me tavaliselt otsuseid langetades isegi mitte teoreetiliselt ennustada, kuidas see täpselt tulevikku mõjutada võib. Meil pole lihtsalt selleks vajalikule informatsioonile ligipääsu," selgitas programmi loomist eestvedanud Michael Bowling ERR Novaatorile. Nii võib oodata, et leitud lahendus laiendab tehisintellekti rakendusvõimalusi ka pärismaailmas.

Tehisintellektist pokkerimeister?
DeepStacki võimete näitlikustamises värbas Bowling rahvusvahelise pokkeri liidu kaudu 33 pokkeriässa 17 riigist. Neist 11 mängis eelmise aasta lõpus programmi vastu vähemalt 3000 mängu. Statisliliselt olulisel tasemel suutis DeepStack lüüa neist kümmet. Analüüsi kohaselt oli programmi võidumääraks 486 millisuurblindi mängu kohta (mbb/g). Võrdlusena loetakse pokkerimängijate hulgas märkimisväärseks ülekaaluks juba 50 mbb/g.

Bowling nentis, et masina paremuse veenvalt tõestamine polnud kerge. "Kui ikka pikka aega kehvad kaardid kätte sattuvad, pole tähtis, kui hea mängija oled. Sa kaotad raha," märkis pokkerit ise haruharva mängiv arvutiteadlane.

Statistiliselt peaks heade ja halbade käte osakaalu võrdsustumiseks ning sellest lähtuvalt ühe või teise mängija headuse tõestamiseks mängima umbes 100 000 kätt. (Täpne mängude arv sõltub mängijate tasemevahest). Inimestel ei jätku selleks ei aega ega energiat. Töörühma väljatöötatud muutlikkuse vähendamise tehnika võimaldas teha usaldusväärseid järeldusi aga juba märksa väiksemate mängude arvu juures.

Praktilised rakendused
Bowlingu sõnul on leitud lahendus universaalne. Sarnast strateegiat saaks kasutada ka kõigi teiste mittetäieliku informatsiooniga mängude lahendamiseks, kus on võimalik anda tehisintellekt teatav intuitsioon või sisetunne. Professor lisas, et ka suurem osa reaalses maailmas inimeste lahendatavatest probleemidest on näited mittetäieliku informatsiooni najal tehtavatest valikutest. "Pigem on küsimus selles, kas suudame suruda probleemid algoritmiliselt lahendatavasse vormi," lisas Bowling.

Väga ilmsed näited seostuvad turvalisuse ja julgeolekuga. "Näiteks võime öelda politseile, millal ja kus peaksid nad ressursside maksimaalse tõhususega kasutamiseks patrullima, ilma et seejuures tekiks etteaimatavaid mustreid või kuidas kaitsta taristut terrorirünnakute eest," tõi professor näite. Samuti saab pokkeriprobleemide lahendamisel loodavaid algoritme kasutada tõhusama ravi määramiseks.

Universumi mäng
Töörühma seljatatud väljakutse ulatusest annab aimu mängu suurus. Piiramata panustega mees-mehe vastu toimuv Hold`em võib kulgeda 10¹⁶⁰ erineval viisil. Kõigi võimaluste kirjeldamiseks ei leidu piisavalt aatomeid isegi terves universumis. Erinevalt juba lahendatud kabest või malest puudub arvutitel seetõttu võimekus iga kord kõik võimalikud valikud läbi proovida ja siis otsustada, milline neist on tõepoolest parim. Liiatigi ei tea arvuti tema vastase poolt hoitavate kaartide kohta mitte midagi konkreetset. Ainult tõenäosust, et selleks on üks või teine kaart.

Nii on üritanud inimesed otsida võimalusi, kuidas vähendada võimalike otsustuspunktide arvu. Piltlikult teeseldakse erinevate olukordade puhul, et need on samasugused ja neid saab mängida samamoodi. "Tuleb välja, et see on väga halb idee. Vilunud mängija võib nõrkuste leidmise järel piiramatute panustega mängus vastase ühe tõmbega tühjaks teha," rõhutas Kanadas asuva Alberta ülikooli tehisintellekti pioneer.

Näiteks eelmistel aastatel korraldatud inimeste ja masinate vahelistel turniiridel oleks olnud programmide sooritus maailma tippmängijate vastu mõnikord mitmeid kordi parem, kui nad oleks iga mängu alguses lihtsalt pärast panuse panka panemist oma käest lihtsalt loobunud.

Paradigma nihe
Nii ei teinudki Bowling kolleegidega katset leida lahendust tervele pokkerimängule. DeepStacki kasutatav strateegia sarnaneb pigem vilunud pokkerimängijate instinktile. "Laseme sel korraga mõelda vaid paari otsustuspunkti võrra tulevikku. Seejärel üritame vaistlikult enda ja vastase võimalike kaartide ning tehtud panuste põhjal hinnata, kui hea on antud olukord," selgitas teadlane. Korraga peab programm 10¹⁶⁰ võimaluse asemel seega läbi vaatama vaid 10⁷ lahendust. See on viie sekundi pikkuse mõtlemisajaga jõukohane juba tüüpilisele mänguarvutile.

Arvutiprogrammile vaistu andmiseks kasutas töörühm süvaõpet. DeepStackil lasti uurida kümneid miljoneid varasemaid mänguolukordi. Tehisnärvivõrkudest andmemassiivide läbi laskmisel õppis programm ära tundma, kui head on erinevad kaardid isegi olukordades, millega polnud nad kunagi varem kokku puutunud. Samal põhimõttel on õpetanud näiteks Facebook ära tundma kassipilte ja Google parandanud oma masintõlget.

Titaanide heitlus
DeepStacki kirjeldav uurimus ilmus vaid kuu pärast Ameerika Ühendriikides toimunud võistlust, kus seljatas arvutiprogramm Libratus samas mängus neli maailma tippmängijat. Kasutatud lahendus erines oluliselt Bowlingu töörühma omast. "Ausalt öeldes olin ma väga üllatunud, et see sellel tasemel üldse töötas," nentis professor.

Programm lähtus juba enne mängu erinevate selle vältel kohatavate olukordade lahendamiseks leitud strateegiatest. Nende väljatöötamiseks oleks kulunud ühe protsessoriga ligikaudu 15 miljonit tundi. Carnegie Melloni ülikooli teadlaste õnneks oli nende käsutuses superarvuti. Mängu käigus uuendas Libratus end vastavalt sellele, kuidasavastasid inimesed selle nõrkusi. Iga käe lõpu lähenedes pandi strateegia lihvimiseks tööle tuhatkonna arvutituumaga superarvuti.

"Meie suudame inimesi võita aga juba tavalisse sülearvutisse sobiva kiibiga. Sõltuvalt sellest, kui palju lisaressursse on parasjagu meie käsutuses, saame muuta enda algoritmi veel oluliselt võimsamaks. Meil pole neidlihtsalt sellisena vaja," lisas Bowling.

Tuleviku horisondid
Kuigi inimene on piiramata panustega mees-mehe vastu toimuvas pokkerimängus selgelt seljatatud, rõhutas professor, et inimesed on arvutist paljudes olukordades veel ees. "Näiteks ei tule tehisintellekt hästi toime olukordades, kus on mängijaid kahest rohkem. See on juba teoreetiliselt teine probleem," sõnas Bowling. Sellegipoolest poleks ta üllatunud, kui arvutid edestavad inimest kuue mängija piiramatute panustega Hold`em pokkeris juba paari aasta pärast

Professor lisas, et DeepStack teadis antud juhul õpitava mängu reegleid juba ette. Neid ise välja nuputades võiks programm jõuda mõneti innovaatilisemate lahendusteni.

Programmi kirjeldati ajakirjas Science.

Arvuti seljatas inimese piiramata panustega pokkerimängus

Samal teemal

rohkem kui asi

Kahemõõtmeliste materjalide maailmas leidub nüüd kulda

Põlevkivituhk aitab püüda ohtlikke elemente

Astronoomid leidsid Linnutee suurima tähe mõõtu musta augu

Eesti teadlaste nutikad minimuundurid hoogustavad energiapööret

Kõne-eelne nutikohtumine võõrkeelega päästab lapse aktsendist

Eesti mesi sai maailmas unikaalse DNA-testi

Füsioterapeut: aktiivsuskell võib une kvaliteedi kohta valetada

Nutipoi heidab valgust jää ja lainete ringmängule

Paplipuust saab palavikurohtu

Tehisaru sunnib Eesti ülikoole õppekorraldust muutma

lugejate lemmik

Eesti mesi sai maailmas unikaalse DNA-testi

Kahemõõtmeliste materjalide maailmas leidub nüüd kulda

Eesti teadlaste nutikad minimuundurid hoogustavad energiapööret

Tehisaru sunnib Eesti ülikoole õppekorraldust muutma

Numbrimäng: Higgsi boson võib kuulutada maailmalõppu

Sõnamäng Alias arvutis - lõbusa ajaviite taga peitub huvitav keelematerjal

Suur analüüs: kas elektriauto ikka säästab kliimat?

hüpe teise maailma

Mereinstituudi kalateadlased: euroopa angerja tulevikust – ausalt ja objektiivselt

Meediastumine kui vankumatu vedur: mis peitub Tinderi tagatoas?

Lõppes üks maailma võimsamaid ilmastikunähtusi

Kahemõõtmeliste materjalide maailmas leidub nüüd kulda

Kiirekasvulised hübriidhaavad puhastavad mulda raskmetallidest

Tõnu Talvi: linnupesa leides tuleks sellest kohe eemalduda

Tähetedevahelises tolmus võib peptiide hõlpsasti tekkida

LED või säästupirn – kumb on parem?

Professor õngitsemas: 5 nippi oma andmete kaitsmiseks

Elroni rongirataste mõistatus: mis neid siis tegelikult kulutab?

Numbrimäng: Higgsi boson võib kuulutada maailmalõppu

Tehnofilosoof: tehnika areng paljastab inimlikkuse otsimise mõttetuse

ERR Novaator: mida tasub teada vesinikupommist?

Galerii: mida teha Eesti metallidega?

Mis mängu me mängime? Turingi test arvutitele ja inimestele.