Puhtalt lehelt alustanud tehisintellektist sai pärastlõunaks maailma parim malemängija
Google'i iseõppiv algoritm õpetas endale inimlike taustateadmisteta selgeks kolm keerukat strateegiamängu, sillutades teed universaalsele tehisintellektile. Male maailmameistrite seljatamiseks tarviliku kogemuspagasi omandas programm vähem kui ühe tööpäevaga.
"Erinevalt tavapärastest maleprogrammidest, millesse lisatakse nende programmeerimisel tuhandeid reegleid ja meetodeid, alustab AlphaZero puhtalt lehelt. Peale üldiste mängureeglite pole sellel mängitavast mängust mingid teadmisi," selgitas Demis Hassabis, Deepmindi juht uurimust tutvustaval pressikonverentsil.
Esimestes matšides tegi programm käike pea täiesti juhuslikult. End heade käikude eest premeerides ja halbade eest laites jõudis see kümnete tuhandete mängude järel mängustiilide ja strateegiateni, mille peale polnud inimesed tulnud sajandite vältel. Samal ajal avastas see erinevate avangute eeliseid ja puudusi, ühendatud etturite struktuuri olulisuse ja erinevaid nippe kuninga kaitsmiseks. Sarnaselt inimestele märkas algoritm, et pikemaajaliste eesmärkide saavutamiseks on mõnikord kasulik ohverdada kasulik malend vastasele.
Malet tipptasemel mängiv Hassabis iseloomustas AlphaZero mängustiili ainulaadse ja voolavana. Inimmeistrite võrreldavat vaistlikku tunnetust programm siiski ei omandanud. Kui keskmine malemeister mõtleb iga kord sadade käikude peale, siis AlphaZero hindas kümnete tuhandete positsioonide headust. Klassikalised toorel arvutusvõimsusel põhinevad programmid vaagivad iga kord kümnete miljonite käikude tulemit.
Lisaks malele lasti õppida AlphaZerol selgeks jaapani kabe shogi ja Hiinast pärit mäng go. "Raskuse mõttes on shogi üks vähestest lauamängudest peale go, mis pakub tõsist väljakutset isegi spetsiaalselt selleks loodud arvutiprogrammidele. Inimestest maailmameistritega võistelda suutvad programmid loodi alles viimase aasta-kahe eest," selgitas DeepMindi juhtivteadur David Silver.
Iseenda vastu enam kui 60 miljoni mängu mängimisel suutis AlphaZero lüüa üheksal juhul kümnest maailma parimat shogi-programmi ja 61 protsendil juhtudest go-maailmameistri seljatanud AlphaGo Zerot. Parimaks maleprogrammiks loetavat Stockfishi võitis Alphazero tuhandest mängust 839 korral, 155 juhul oli tulemuseks viik ja kuuel korral pidi programm tunnistama kaotust.
Kõigis mängudes jõudis programm iseõppimise teel lahendusteni, mis tundusid inimestele esmapilgul kummaliste või vähemalt harjumatutena. "Minu unistus on sarnase süsteemi kasutamine mitte ainult lauamängudes, vaid ka igat sorti päriseluliste rakenduste, näiteks uute ravimite ja materjalide välja töötamiseks või biotehnoloogias," märkis Silver.
Hassabis avaldas aga lootust, et AlphaZerole sarnanevad programmid on esimene samm laia tehisintellekti loomiseks, mis suudab lahendada mitut sorti erinevaid probleeme ja ühiskondlikult tähtsaid väljakutseid.
Uurimust tutvustava ülevaateartikli kirjutanud Murray Campbell, Kanadas asuva Carnegie Melloni Ülikooli arvutiteadlane rõhutas aga, et AlphaZero ei alusta täiesti tühjalt lehelt.
Päris elus nähtavates olukordades edukalt toime tulemiseks peaks suutma süsteem ise välja nuputada ka mängureeglid. Samuti jääb süsteem praegu hätta, kui muuta reegleid jooksvalt või poole mängu pealt. Lisaks on nii male, shogi kui ka go täieliku informatsiooniga mängud. Päris maailmas pole enamasti ühes või teises olukorras otsuse langetamiseks kõik tarvilik teada.
Uues töös esitletud AlphaZero edu võti seisneb arvutikiipides, mille struktuur meenutab inimajus leiduvatele närvivõrgustikele sarnanevaid võrgustikke. Need tugevnevad ja nõrgenevad vastavalt tehtud otsuste kasulikkusele. Võrreldes inimajuga tarbib iga kiip 20 vati asemel hinnanguliselt 200 vati jagu energiat. AlphaZero jooksutati 5000 taolise kiibi peal, mis vastab superarvuti võimsusele.
Praegu tegutseb DeepMind mitme tervisega seotud projekti kallal. Muu hulgas aitavad selle algoritmid ennustada, kui tõenäoliselt USA veteranide tervislik seisund haiglas halveneb. Septembris toimunud meditsiinikonverentsil teatas töörühm, et nende loodud programm suudab panna kompuutertomograafi piltide aluselt diagnoose sama hästi kui päris arstid.
Otsest kasu Google'ile toob DeepMind nende andmekeskuste elektritarbe vähendamisega. Tervikuna kandis ettevõte möödunud aatal 324 miljoni euro suurust kahjumit.
Uurimus ilmus ajakirjas Science.