Arvutist mängur otsib tehisintellekti saladust ({{commentsTotal}})

Autor/allikas: Google DeepMind

Eelmisel aastal Google'i poolt ostetud Londoni idufirma DeepMind insenerid on loonud inimaju matkiva algoritmi, mis on vaid paari juhtnööri alusel omandanud vilumuse poolesajas arcade-tüüpi arvutimängus, edestades inimest järjepidevalt ligi pooltes. Saavutus sillutab teed universaalsete õppimisvõimeliste arvutisüsteemide loomisele ja võiks pikemas perspektiivis aidata luua tehisintellekti.

Projektori ekraanil võib näha stiliseeritud telliskiviseina, liigutatavat reketit ja palli. See kukub maha, ikka ja jälle. Minutite järel hakkab reket liikuma. Alguses ehk kobamisi, kuid progress on märgatav. Reketilt põrkav pall lööb seinast välja üha uusi ja uusi kive. Kolmesaja mängu järel võib reketit kontrollivat mängijat pidada ilmselt paremaks kui ükskõik millist luust ja lihast inimest. Neli tundi hiljem saadab ta palli järjekindlalt seina taha, et hõlpsalt lisapunkte teenida. Võib vaid oletada, kas Steve Wozniak ja Steve Jobs oleksid 1975. aastal osanud arvata, et 40 aastat hiljem triumfeerib nende loodud mängus Breakout inimese asemel arvuti.

Tänaseks on Demis Hassabise töörühm tõestanud õpivõimelise algoritmi paremust veel mängudes nagu Robot Tank, Road Runner, Demon Attack ja Tennis. Inimestel on lootust tehismängurit sellele tutvumiseks antud 49st mängust lüüa 26s. "Tegu on esimese korraga, kui keegi on ehitanud õpisüsteemi, mis suudab kogemusest õppides lahendada väga mitmesuguseid keerukaid ülesandeid, antud juhul mängida erinevaid arcade arvutimänge ja olla seejuures neist mitmetes inimesest parem," tutvustas Hassabis ajakirjas Nature ilmunud uurimust.

Loodud lahendus ühendab endas kaks inimajust inspireeritud tehisintellekti vormi – mitmekihilised närvivõrgud ja kinnistava õppimise. "Sellel on ligipääs vaid mängu visuaalsele teabele ja punktisummale. Sealt edasi peab ta ise välja nuputama, mida ta mängumaailmas täpselt kontrollib, kuidas punkte hankida ja mida vilumuse saavutamiseks tegema peab. Seda ise reaalselt mängu mängides," lisas neuroteadlasest tehisintellekti uurija. Erinevalt tüüpilistest arvutiprogrammidest suudab mitmekihiline Q-võrgustik (DQN) tänu kinnistavale õppimisele leida samalaadse teabe alusel just antud olukorras kasuliku strateegia.

DeepMindi DQN erineb olemuslikult kuulsatest programmidest nagu Deep Blue või Watson, kes seljatasid inimesi mängude nagu male ja "Kuldvillak". "Tehnilises mõttes on need muljetavaldavad, kuid võrreldes meie omaga on need suuresti eelprogrammeeritud. Näiteks Deep Blue puhul olid nende arendustiimis programmeerijad ja malemeistrid, kes lisasid sellesse oma teadmised, kuid samas puudus sellel kohanemis- ja õpivõime. Sellest piisas, et Kasparovit lüüa,“ märkis Hassabis. DQN on seevastu suuteline leidma lahendusi, mille peale programeerijad ise tulla ei pruugi.

Mitmekihilisi närvivõrke kasutatakse programmile ettesöödetavast töötlemata teabest tähendust omavate kogumite leidmiseks. Sarnaselt inimajule võimaldavad need üldisest mürast leida mustreid, servi, värve jne, millele järgnevas faasis eelnevalt õpitu ja konteksti alusel tähendust omistada.

Näiteks laua või tooli eristamiseks peab inimene esmalt tuvastama selle täpse kuju. Kuigi inimene on nähtava omadustele konteksti omastamises arvutist tunduvalt paindlikum, tundes enamasti ära isegi postmodernse disainiga mööblit, suutis paari aasta Google'i loodud algoritm õppida ära tundma veebiavarustes leiduvaid kasse. Isegi juhul, kui arvutil puudus teadmine, mida kass olemuslikult tähendab.

Kinnistav õppimine meenutab aga mõneski mõttes Pavlovi kuulsaid eksperimente. Samas annab see algoritmile võime teatavates piirides iseseisvalt õppida. Ette tuleb anda vaid primaarne eesmärk, mille poole püüelda. Viimaseks programmid ise veel õnneks või kahjuks võimelised ei ole. Arcade-mängude õpetamisel oli nn motiveerivaks präänikuks punktisumma. Mida parem tulemus saavutati, seda "õnnelikum" oli programm ja seda tugevamaks muutusid seosed sammude vahel, millega hea tulemus täpselt saavutati.

Sarnaselt imikule või õpetatavale loomale ei teadnud algoritm alguses, milline strateegia ja käitumisviis edu toob. Nõnda oli selle käitumine esimestel õpitundidel paratamatult juhuslik, muutudes üha enam ja enam sihipärasemaks. "See meenutab enam inimeste õpimustreid. Me õpime kogemusest, ümbritsevast maailmast, oma meelte vahendusel. Meie ajud koostavad selle alusel mudeleid, et aidata teha paremaid otsuseid ja kuidas maailmas käituda," sõnas Hassabis.

DeepMindi töörühm spekuleerib, et DQN-i kohanemisvõimest oleks kasu ka näiteks suurte ilma- ja finantsandmete hulkade töötlemisel, et leida neist mustreid, mida inimesed üldisest mürast sirgjooneliselt eristada ei suuda. Ent arvestades, et DeepMindi üle omab kontrolli Google, võib oletada, et ühel või teisel moel jõuab see ka nende poolt pakutavasse reklaami- ja otsinguteenustesse. Esialgu plaanib aga Hassabis tutvustada DPQ-le 1990. aastate klassikuid nagu Quake ja Theme Park. Enne seda tuleb aga leida vastus küsimusele, kuidas parandada selle sooritusvõimet pikemat planeerimist nõudvates ülesannetes.

Nii või teisiti on tõelise tehisintellekti loomiseni pikk teekond. Näiteks peaksid need suutma rakendada parasjagu kogetavates olukordades teadmisi, mis pärinevad hoopis teistsugustest eelnevalt kogetud situatsioonidest. Näiteks kuigi Pongil ja Breakoutil on mitmeid sarnasusi, peab DPQ ühte või teist esimest korda mängida tahtes nullist alustama.



Martin Kuusk.Martin Kuusk.
Haiguse lugu: elu eluaegse närvihaigusega

Väikesest peale rongide vastu huvi tundnud ning huvist endale ka ameti teinud Martin Kuusk põeb haigust nimega sclerosis multiplex. Sportlikust, elurõõmsast ja pidevalt naljatlevast mehest on võimatu peale vaadates aru saada, et teda tabanud tõbi kuulub tegelikult tõsiste krooniliste haiguste hulka.

Soovitused, kuidas vältida koolides valimiskampaaniat
Uuendatud: 09.08

Sel sügisel saavad esimest korda osaleda valimistel noored alates 16. eluaastast. See tähendab ühtlasi, et koolid on üha suurema poliitikute surve all – paljud otsivad võimalust oma töö tutvustamise egiidi all teha koolis valimiskampaaniat.

Video ja fotod: Maa varjutas Kuu
Uuendatud: 07.08

Suuremal osal idapoolkeral sai esmaspäeva õhtul jälgida osalist kuuvarjutust. Eestis tõusis Kuu seekord varjutuse täispikkuses nägemiseks paraku liiga hilja. Vaatemängust võis aga osa saada ERR Novaatori vahendusel.

Lapsed on need, kes peavad elama selles maailmas, mis me neile jätame.Lapsed on need, kes peavad elama selles maailmas, mis me neile jätame.
Randel Kreitsberg: keda huvitavad mesilased?!

Ajal, mil kõik Eesti meediakanalid pasundavad surnud mesilastest jäetakse tähele panemata ja mõistmata, et tegemist on meeldetuletusega millegi hoopis suurema kohta. Loomulikult, mesilaste suremine on nõretav greenpeace’ilik juhtum, mis aitab probleemile lihtsustatud ja kõigile arusaadaval moel tähelepanu pöörata. Kuid probleem ei ole mesilaste suremises!

Cassini tabamus 2014. aastast: Päike peegeldub Titani vedela metaani meredelt.Cassini tabamus 2014. aastast: Päike peegeldub Titani vedela metaani meredelt.
Saturni kuult leiti elu tekkimiseks tarvilikke molekule

Saturni suurimal kuul Titanil laiuvad ainsa paigana Päikesesüsteemis peale Maa järved ja ookeanid, muutes selle üheks paljutõotavamaks kohaks, kust otsida maavälist elu. Teadlased on leidnud nüüd kuu atmosfäärist molekule, millest saaksid elusorganismid ehitada rakke meenutavaid membraane.

ERR kasutab oma veebilehtedel http küpsiseid. Kasutame küpsiseid, et meelde jätta kasutajate eelistused meie sisu lehitsemisel ning kohandada ERRi veebilehti kasutaja huvidele vastavaks. Kolmandad osapooled, nagu sotsiaalmeedia veebilehed, võivad samuti lisada küpsiseid kasutaja brauserisse, kui meie lehtedele on manustatud sisu otse sotsiaalmeediast. Kui jätkate ilma oma lehitsemise seadeid muutmata, tähendab see, et nõustute kõikide ERRi internetilehekülgede küpsiste seadetega.