Arvutiprogramm seljatas esimest korda täiendava eeliseta go-meistrit ({{commentsTotal}})

Autor/allikas: Nature

Google'i all tegutseva ettevõtte DeepMind teadlased teatavad, et on loonud esimese arvutiprogrammi, mis suudab järjepidevalt edestada professionaalseid mängijaid go-s. Hiinast pärinevat lihtsate reeglite, kuid ülikeerukate strateegiatega mängu oldi eelnevalt peetud selle kümnendi algoritmide jaoks ületamatult raskeks.

Superarvutitel jooksvad nutikalt loodud algoritmid on edestanud inimest mitmetes klassikalistes mängudes nagu kabe, male, othello ja isegi pokker. Enamasti on masinate võit taandunud masina rumalusele ehk võimele lahendada lühikese aja vältel inimesele hoomamatul hulgal üheülbalisi tehteid. Sisuliselt analüüsitakse enamasti iga võimalikku käiku mitmeid käike ette ja võrreldakse käiguseeria kasulikkust ja positsiooni paranemise määra.

Mängude n-ö nullist võiduka lahenduseni jõudmine käib aga võimalike käikude arvu tõttu üle jõu aga isegi arvutitel. Isegi males ulatub võimalike käikude arv igal ajahetkel keskmiselt 35ni. Go on aga vaatamata selle näilisele lihtsusele arvutite jaoks veel suurusjärkude võrra raskem. Mängijatel on territooriumi võitmise eesmärgil teha igal ajahetkel keskmiselt 250 käiku. Arvestades, et iga mäng kestab 150 käiku, ulatub võimalike kombinatsiooni arv 10E171'ni, mida on suurusjärkude võrra rohkem kui universumis aatomeid.

Inimesed saavad nõnda keerukate ülesannete puhul tugineda üksikasjaliku analüüsi asemel ajanappuse korral vähemal või rohkemal määral eelnevale kogemusele toetuvale intuitsioonile. Kuigi arvutitel vastav võime kui selline puudub, on hakanud seda kompenseerima süvaõpe ja tehisnärvivõrgud, mis on näiteks Facebook'i ja Google'i pildituvastuse südameks. Piisava kogemuse põhjal õpivad need sarnaselt inimeste närvirakkude võrgustikele ära tundma, millal on tegu näiteks puu, auto, suu, silmade ja inimese näoga.

Süvaõpet on võimalik kombineerida nn katse eksituse meetodil põhinevate kinnistavate algoritmidega. Arvuti proovib järjest võimalikke liigutusi ja tunnistab need headeks ja halbadeks vastavalt sellele, kas nendega kaasneb arvuti jaoks vaevatasu või mitte. Klassikaliste Atari-tüüpi arvutimängude puhul oleks selleks punktisumma kasvamine ja avastab selle alusel enda jaoks uusi strateegiaid. Lõpptulemus võib olla isegi nii hea, et edestada inimest, nagu demonstreeriti DeepMindi tehisintellekti puhul eelmisel aastal Atari mängude näitel.

Ajakirjas Nature ilmunud töös teatavad nüüd ettevõtte insenerid, et rakendasid sama lahendust edukalt go-mängu puhul. Sarnaselt inimestest suurmeistritele ei põhine selle tehtavad otsused sedavõrd iga konkreetse laual oleva seisu süvaanalüüsil, kui hoomamisel ja olukorrale sobiva strateegia rakendamisel.

Hakatuseks andis Demis Hassabis kolleegidega sellele analüüsida 30 miljonit inimeste poolt go-mängus tehtus käiku. Lõpptulemusena suutis närvivõrgustik järgmist inimese poolt tehtavad käiku ette ennustada 57-protsendilise tõenäosusega. Eelnev parim algoritm suutis seda teha vaid 44 juhul sajast. Seejärel tasupõhise õppe rakendamisel lasti sel mängida iseenda vastu miljoneid kordi 50 erineval arvutil. Iga järgneva mänguga suutis algoritm üha paremini hinnata, milliseid käike tasub teha ja milliseid mitte, luues selle käigus uusi strateegiaid.

Kogutud teadmus söödeti viimaks teisele närvivõrgule, mis lähenes mängule pigem Kasparovit malemängus võitnud Deep Blue sarnaselt, hinnates iga käigu võimalikke tagajärgi. Alusteadmistena kasutatakse aga programmeerijate antud teadmuspagasi asemel algoritmi enda kogemust. Samuti on algoritm võimeline käigupealt õppima.

Uurimuse kirjutamise ajaks oli AlphaGo piisavalt osav, et seljatada 495 mängus maailma eelnevad parimad go-programmid 494 korral. Algoritmi jooksutamiseks kasutati sel ajal 48 keskprotsessorit ja kaheksat graafikakaarti. Võimsama AlphaGo käsutuses on 1202 keskprotsessorit ja 176 graafikakaarti. Katsetes suutis viimane esimest edestada keskmisel kolmel juhul neljast. Samuti on see suutnud viiel korral viiest lüüa Euroopa valitsevat meistrit Fan Huid. Käesoleva aasta märtsis on plaanis panna see vastamisi maailma valitseva meistri lõuna-korealase Lee Sedoiga.

Uurimuse autorid märgivad tulemuste põhjal, et sarnaselt saaks läheneda ka mitmetele teistele valdkondadele. Sisuliselt ükskõik millisele teatavat sorti ''vastast'' hõlmavale probleemile. Samas on AlphaGo õppimisstiil mõnede ekspertide hinnangul mõneti murettekitav. Lisaks inimeste poolt sellele ettesöödetud andmetele kasutab algoritm ka enda poolt loodud infot.

Toimetaja: Jaan-Juhan Oidermaa



ERR kasutab oma veebilehtedel http küpsiseid. Kasutame küpsiseid, et meelde jätta kasutajate eelistused meie sisu lehitsemisel ning kohandada ERRi veebilehti kasutaja huvidele vastavaks. Kolmandad osapooled, nagu sotsiaalmeedia veebilehed, võivad samuti lisada küpsiseid kasutaja brauserisse, kui meie lehtedele on manustatud sisu otse sotsiaalmeediast. Kui jätkate ilma oma lehitsemise seadeid muutmata, tähendab see, et nõustute kõikide ERRi internetilehekülgede küpsiste seadetega.
Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: