Tehisintellekt tegi inimliku abita tuule alla maailma parimale go-mängijale
Ettevõtte DeepMind loodud tehisintellekt õpetas endale selgeks maailma ühe kõige keerukama strateegiaga lauamängu – go. Programm edestas inimestest maailmameistreid löönud eelkäijat tulemusega 100:0, kasutades selleks nippe, mida polnud suutnud inimesed leida paari tuhande aasta jooksul. Saavutus sillutab teed inimlikest piirangutest vabale tehisintellektile.
Aasta eest maailmas laineid löönud AlphaGo Master treenimiseks näitas Google'i tütarettevõte sellele kõigepealt kümneid tuhandeid mänge, mida olid mänginud maailma paremikku kuuluvad go-mängijad. AlphaGo Zero pidi alustama aga puhtalt lehelt. Tehisintellekt teadis vaid mängureegleid ja kuidas mängulaud välja näeb. Kõik ülejäänu pidi see tegema endale selgeks mängu iseenda vastu mängides.
Miljonite mängudega kasvasid täiesti juhuslikud käiguseeriad strateegiateks ja mänguplaanideks, mille olid inimesed välja töötanud viimase 4000 aasta jooksul. Viimasel treeningpäeval leidis programm vastase edestamiseks juba täiesti uusi nippe. Kolme päeva järel mängis see sama hästi kui professionaalsed inimestest go-mängijad. Ligi 30 miljoni mängu ja 40 päeva kestnud treeningprotsessi järel suutis Zero oma eelkäijat järjepidevalt edestada. Eelnevalt oli AlpaGo Master seljatanud 2016. aasta märtsis go kokkuleppelise maailmameistri Lee Se-doli.
Taolist õpiprotsessi ei saa kasutada vaid inimestele tuule alla tegevate tehismängurite loomiseks. Praktikas näitlikustab see, et tehisintellektist võib olla abi probleemide lahendamisel, mille kohta pole kogutud kuigi palju alusmaterjali. Sellest on potentsiaalselt kasu uute ravimite ja valkude avastamisel, kvantkeemias ja uute materjalide otsimisel. Ettevõtet juhtiv Demis Hassabis pole matnud maha näiteks mõtet, et sellega saab leida ülijuhte – toatemperatuuril täielikult ilma kadudeta elektrivoolu juhtivaid materjale.
„Inimeste andmete ja ekspertiisi kasutamisest loobumisega oleme suutnud eemaldada inimeste teadmiste seatud piirid. Tehisintellektil on võimalus sünteesida alusprintsiipidele toetudes ise uusi teadmisi,“ selgitas Londoni ülikooli kolledži arvutiteaduseprofessor David Silver, üks DeepMindi juhtivteadlasi. Samas nentis ta, et järgmise olulise sammuna peaks suutma programm endale lisaks selgeks teha ka mängitava mängu reeglid. Seda tegi mõne aasta DeepMindi teine acrade-tüüpi mänge mängiv algoritm.
Sarnane, kuid erinev
Sarnaselt oma eelkäijale toetub AlphaGo Zero edu tehisnärvivõrkudele ja stiimulõppele. Sellega matkitakse elusorganismide poolt juba aastatuhandeid kasutatud lahendust. Sisuliselt on tegu katse ja eksituse meetodiga. Kui programm avastab, et teatud (lahendus)käik viib teda võidule lähemale, hakkab ta eelistama järgmistes mängudes seda tüüpi käitumist. See toob kaasa mõnede närvivõrgu neuronite vaheliste seoste tugevnemise ja teiste nõrgenemise.
Stiimulõpet süvaõppega kombineerides saab panna programmid suurtest andmemassiividest ära tundma kindlaid mustreid. Näiteks otsima fotodelt kassipoegi. Just taolist instinkti on vaja ka go-s vilumuse saavutamiseks. Võimalike erinevate go-laual nähtavate kombinatsiooni arv ulatub 10171-ni, mida on suurusjärkude võrra rohkem kui universumis aatomeid. Teisisõnu pole võimalik tänapäeva arvutusvõimsuse juures kõiki käike toorest jõudu kasutades läbi proovida nagu males.
AlphaGo Master põhines kahel närvivõrgul. Neist ühte kasutati hetkeolukorras kõige paremate käikude ennustamiseks, teist valitud käikude hindamiseks ehk läbimängimiseks. Zero kasutab aga vaid ühe tehisnärvivõrku, millel lastakse valida lihtsalt välja kõige parem käik.
See võimaldas teha otsuseid kiiremini ja väiksema arvutusvõimsusega. Esitletud algoritmi jooksutamiseks kasutati nelja TPU-kiipi, mille hind on kokku umbes 25 miljonit dollarit. AlphaGo Masteri jaoks oli vaja neid enam kui kümme korda rohkem.
Uurimus ilmus ajakirjas Nature.