Arvutist mängur otsib tehisintellekti saladust ({{commentsTotal}})

Autor/allikas: Google DeepMind

Eelmisel aastal Google'i poolt ostetud Londoni idufirma DeepMind insenerid on loonud inimaju matkiva algoritmi, mis on vaid paari juhtnööri alusel omandanud vilumuse poolesajas arcade-tüüpi arvutimängus, edestades inimest järjepidevalt ligi pooltes. Saavutus sillutab teed universaalsete õppimisvõimeliste arvutisüsteemide loomisele ja võiks pikemas perspektiivis aidata luua tehisintellekti.

Projektori ekraanil võib näha stiliseeritud telliskiviseina, liigutatavat reketit ja palli. See kukub maha, ikka ja jälle. Minutite järel hakkab reket liikuma. Alguses ehk kobamisi, kuid progress on märgatav. Reketilt põrkav pall lööb seinast välja üha uusi ja uusi kive. Kolmesaja mängu järel võib reketit kontrollivat mängijat pidada ilmselt paremaks kui ükskõik millist luust ja lihast inimest. Neli tundi hiljem saadab ta palli järjekindlalt seina taha, et hõlpsalt lisapunkte teenida. Võib vaid oletada, kas Steve Wozniak ja Steve Jobs oleksid 1975. aastal osanud arvata, et 40 aastat hiljem triumfeerib nende loodud mängus Breakout inimese asemel arvuti.

Tänaseks on Demis Hassabise töörühm tõestanud õpivõimelise algoritmi paremust veel mängudes nagu Robot Tank, Road Runner, Demon Attack ja Tennis. Inimestel on lootust tehismängurit sellele tutvumiseks antud 49st mängust lüüa 26s. "Tegu on esimese korraga, kui keegi on ehitanud õpisüsteemi, mis suudab kogemusest õppides lahendada väga mitmesuguseid keerukaid ülesandeid, antud juhul mängida erinevaid arcade arvutimänge ja olla seejuures neist mitmetes inimesest parem," tutvustas Hassabis ajakirjas Nature ilmunud uurimust.

Loodud lahendus ühendab endas kaks inimajust inspireeritud tehisintellekti vormi – mitmekihilised närvivõrgud ja kinnistava õppimise. "Sellel on ligipääs vaid mängu visuaalsele teabele ja punktisummale. Sealt edasi peab ta ise välja nuputama, mida ta mängumaailmas täpselt kontrollib, kuidas punkte hankida ja mida vilumuse saavutamiseks tegema peab. Seda ise reaalselt mängu mängides," lisas neuroteadlasest tehisintellekti uurija. Erinevalt tüüpilistest arvutiprogrammidest suudab mitmekihiline Q-võrgustik (DQN) tänu kinnistavale õppimisele leida samalaadse teabe alusel just antud olukorras kasuliku strateegia.

DeepMindi DQN erineb olemuslikult kuulsatest programmidest nagu Deep Blue või Watson, kes seljatasid inimesi mängude nagu male ja "Kuldvillak". "Tehnilises mõttes on need muljetavaldavad, kuid võrreldes meie omaga on need suuresti eelprogrammeeritud. Näiteks Deep Blue puhul olid nende arendustiimis programmeerijad ja malemeistrid, kes lisasid sellesse oma teadmised, kuid samas puudus sellel kohanemis- ja õpivõime. Sellest piisas, et Kasparovit lüüa,“ märkis Hassabis. DQN on seevastu suuteline leidma lahendusi, mille peale programeerijad ise tulla ei pruugi.

Mitmekihilisi närvivõrke kasutatakse programmile ettesöödetavast töötlemata teabest tähendust omavate kogumite leidmiseks. Sarnaselt inimajule võimaldavad need üldisest mürast leida mustreid, servi, värve jne, millele järgnevas faasis eelnevalt õpitu ja konteksti alusel tähendust omistada.

Näiteks laua või tooli eristamiseks peab inimene esmalt tuvastama selle täpse kuju. Kuigi inimene on nähtava omadustele konteksti omastamises arvutist tunduvalt paindlikum, tundes enamasti ära isegi postmodernse disainiga mööblit, suutis paari aasta Google'i loodud algoritm õppida ära tundma veebiavarustes leiduvaid kasse. Isegi juhul, kui arvutil puudus teadmine, mida kass olemuslikult tähendab.

Kinnistav õppimine meenutab aga mõneski mõttes Pavlovi kuulsaid eksperimente. Samas annab see algoritmile võime teatavates piirides iseseisvalt õppida. Ette tuleb anda vaid primaarne eesmärk, mille poole püüelda. Viimaseks programmid ise veel õnneks või kahjuks võimelised ei ole. Arcade-mängude õpetamisel oli nn motiveerivaks präänikuks punktisumma. Mida parem tulemus saavutati, seda "õnnelikum" oli programm ja seda tugevamaks muutusid seosed sammude vahel, millega hea tulemus täpselt saavutati.

Sarnaselt imikule või õpetatavale loomale ei teadnud algoritm alguses, milline strateegia ja käitumisviis edu toob. Nõnda oli selle käitumine esimestel õpitundidel paratamatult juhuslik, muutudes üha enam ja enam sihipärasemaks. "See meenutab enam inimeste õpimustreid. Me õpime kogemusest, ümbritsevast maailmast, oma meelte vahendusel. Meie ajud koostavad selle alusel mudeleid, et aidata teha paremaid otsuseid ja kuidas maailmas käituda," sõnas Hassabis.

DeepMindi töörühm spekuleerib, et DQN-i kohanemisvõimest oleks kasu ka näiteks suurte ilma- ja finantsandmete hulkade töötlemisel, et leida neist mustreid, mida inimesed üldisest mürast sirgjooneliselt eristada ei suuda. Ent arvestades, et DeepMindi üle omab kontrolli Google, võib oletada, et ühel või teisel moel jõuab see ka nende poolt pakutavasse reklaami- ja otsinguteenustesse. Esialgu plaanib aga Hassabis tutvustada DPQ-le 1990. aastate klassikuid nagu Quake ja Theme Park. Enne seda tuleb aga leida vastus küsimusele, kuidas parandada selle sooritusvõimet pikemat planeerimist nõudvates ülesannetes.

Nii või teisiti on tõelise tehisintellekti loomiseni pikk teekond. Näiteks peaksid need suutma rakendada parasjagu kogetavates olukordades teadmisi, mis pärinevad hoopis teistsugustest eelnevalt kogetud situatsioonidest. Näiteks kuigi Pongil ja Breakoutil on mitmeid sarnasusi, peab DPQ ühte või teist esimest korda mängida tahtes nullist alustama.



Maailmas laienid löönud uuring, mis väitis, et kõrgeid kontsi kandvad naised on seksikamad, ei vasta tõele.

Kõrgeid kontsi kandvad naised on seksikamad - puhas vale

Meedias laia kõlapinda leidnud prantsuse psühholoogi tööd põhinevad küsitaval statistikal ning kompavad meetodite poolest kohati hea maitse ja eetikapiire. Pahateadusele jälile saanud teadlaste hinnangul pole tegu üksikjuhtumiga.

teadustöö õigeusu koolide ajaloost
pinged akadeemilise vabaduse ümber
Tööstusdoktorantuur on doktoriõppe erivorm, kus doktorant teeb teadustööd ettevõttele.

Väljavõtted tippülikoolide nõuetest, kuidas teadlased ühiskonda panustavad

Viimaste päevade tulised sõnavõtud teemal kui palju võib ülikool ette kirjutada, keelata või lubada teadlastel teaduspõhist arvamust või ka uuringid väljaspool ülikooli. Sirp tegi ülevaate erinevate maailma tippülikoolide reeglitest, mis ütlevad, millistel alustel võib teadlane oma tööd ühiskonnale anda. Siit on ehk Eesti ülikoolidelgi palju õppida.

ERR kasutab oma veebilehtedel http küpsiseid. Kasutame küpsiseid, et meelde jätta kasutajate eelistused meie sisu lehitsemisel ning kohandada ERRi veebilehti kasutaja huvidele vastavaks. Kolmandad osapooled, nagu sotsiaalmeedia veebilehed, võivad samuti lisada küpsiseid kasutaja brauserisse, kui meie lehtedele on manustatud sisu otse sotsiaalmeediast. Kui jätkate ilma oma lehitsemise seadeid muutmata, tähendab see, et nõustute kõikide ERRi internetilehekülgede küpsiste seadetega.
Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: