Arvutist mängur otsib tehisintellekti saladust ({{commentsTotal}})

Autor/allikas: Google DeepMind

Eelmisel aastal Google'i poolt ostetud Londoni idufirma DeepMind insenerid on loonud inimaju matkiva algoritmi, mis on vaid paari juhtnööri alusel omandanud vilumuse poolesajas arcade-tüüpi arvutimängus, edestades inimest järjepidevalt ligi pooltes. Saavutus sillutab teed universaalsete õppimisvõimeliste arvutisüsteemide loomisele ja võiks pikemas perspektiivis aidata luua tehisintellekti.

Projektori ekraanil võib näha stiliseeritud telliskiviseina, liigutatavat reketit ja palli. See kukub maha, ikka ja jälle. Minutite järel hakkab reket liikuma. Alguses ehk kobamisi, kuid progress on märgatav. Reketilt põrkav pall lööb seinast välja üha uusi ja uusi kive. Kolmesaja mängu järel võib reketit kontrollivat mängijat pidada ilmselt paremaks kui ükskõik millist luust ja lihast inimest. Neli tundi hiljem saadab ta palli järjekindlalt seina taha, et hõlpsalt lisapunkte teenida. Võib vaid oletada, kas Steve Wozniak ja Steve Jobs oleksid 1975. aastal osanud arvata, et 40 aastat hiljem triumfeerib nende loodud mängus Breakout inimese asemel arvuti.

Tänaseks on Demis Hassabise töörühm tõestanud õpivõimelise algoritmi paremust veel mängudes nagu Robot Tank, Road Runner, Demon Attack ja Tennis. Inimestel on lootust tehismängurit sellele tutvumiseks antud 49st mängust lüüa 26s. "Tegu on esimese korraga, kui keegi on ehitanud õpisüsteemi, mis suudab kogemusest õppides lahendada väga mitmesuguseid keerukaid ülesandeid, antud juhul mängida erinevaid arcade arvutimänge ja olla seejuures neist mitmetes inimesest parem," tutvustas Hassabis ajakirjas Nature ilmunud uurimust.

Loodud lahendus ühendab endas kaks inimajust inspireeritud tehisintellekti vormi – mitmekihilised närvivõrgud ja kinnistava õppimise. "Sellel on ligipääs vaid mängu visuaalsele teabele ja punktisummale. Sealt edasi peab ta ise välja nuputama, mida ta mängumaailmas täpselt kontrollib, kuidas punkte hankida ja mida vilumuse saavutamiseks tegema peab. Seda ise reaalselt mängu mängides," lisas neuroteadlasest tehisintellekti uurija. Erinevalt tüüpilistest arvutiprogrammidest suudab mitmekihiline Q-võrgustik (DQN) tänu kinnistavale õppimisele leida samalaadse teabe alusel just antud olukorras kasuliku strateegia.

DeepMindi DQN erineb olemuslikult kuulsatest programmidest nagu Deep Blue või Watson, kes seljatasid inimesi mängude nagu male ja "Kuldvillak". "Tehnilises mõttes on need muljetavaldavad, kuid võrreldes meie omaga on need suuresti eelprogrammeeritud. Näiteks Deep Blue puhul olid nende arendustiimis programmeerijad ja malemeistrid, kes lisasid sellesse oma teadmised, kuid samas puudus sellel kohanemis- ja õpivõime. Sellest piisas, et Kasparovit lüüa,“ märkis Hassabis. DQN on seevastu suuteline leidma lahendusi, mille peale programeerijad ise tulla ei pruugi.

Mitmekihilisi närvivõrke kasutatakse programmile ettesöödetavast töötlemata teabest tähendust omavate kogumite leidmiseks. Sarnaselt inimajule võimaldavad need üldisest mürast leida mustreid, servi, värve jne, millele järgnevas faasis eelnevalt õpitu ja konteksti alusel tähendust omistada.

Näiteks laua või tooli eristamiseks peab inimene esmalt tuvastama selle täpse kuju. Kuigi inimene on nähtava omadustele konteksti omastamises arvutist tunduvalt paindlikum, tundes enamasti ära isegi postmodernse disainiga mööblit, suutis paari aasta Google'i loodud algoritm õppida ära tundma veebiavarustes leiduvaid kasse. Isegi juhul, kui arvutil puudus teadmine, mida kass olemuslikult tähendab.

Kinnistav õppimine meenutab aga mõneski mõttes Pavlovi kuulsaid eksperimente. Samas annab see algoritmile võime teatavates piirides iseseisvalt õppida. Ette tuleb anda vaid primaarne eesmärk, mille poole püüelda. Viimaseks programmid ise veel õnneks või kahjuks võimelised ei ole. Arcade-mängude õpetamisel oli nn motiveerivaks präänikuks punktisumma. Mida parem tulemus saavutati, seda "õnnelikum" oli programm ja seda tugevamaks muutusid seosed sammude vahel, millega hea tulemus täpselt saavutati.

Sarnaselt imikule või õpetatavale loomale ei teadnud algoritm alguses, milline strateegia ja käitumisviis edu toob. Nõnda oli selle käitumine esimestel õpitundidel paratamatult juhuslik, muutudes üha enam ja enam sihipärasemaks. "See meenutab enam inimeste õpimustreid. Me õpime kogemusest, ümbritsevast maailmast, oma meelte vahendusel. Meie ajud koostavad selle alusel mudeleid, et aidata teha paremaid otsuseid ja kuidas maailmas käituda," sõnas Hassabis.

DeepMindi töörühm spekuleerib, et DQN-i kohanemisvõimest oleks kasu ka näiteks suurte ilma- ja finantsandmete hulkade töötlemisel, et leida neist mustreid, mida inimesed üldisest mürast sirgjooneliselt eristada ei suuda. Ent arvestades, et DeepMindi üle omab kontrolli Google, võib oletada, et ühel või teisel moel jõuab see ka nende poolt pakutavasse reklaami- ja otsinguteenustesse. Esialgu plaanib aga Hassabis tutvustada DPQ-le 1990. aastate klassikuid nagu Quake ja Theme Park. Enne seda tuleb aga leida vastus küsimusele, kuidas parandada selle sooritusvõimet pikemat planeerimist nõudvates ülesannetes.

Nii või teisiti on tõelise tehisintellekti loomiseni pikk teekond. Näiteks peaksid need suutma rakendada parasjagu kogetavates olukordades teadmisi, mis pärinevad hoopis teistsugustest eelnevalt kogetud situatsioonidest. Näiteks kuigi Pongil ja Breakoutil on mitmeid sarnasusi, peab DPQ ühte või teist esimest korda mängida tahtes nullist alustama.



Sotsiaalmeedia keskkonna tarnija peab hiljemalt 24 tundi pärast vastava märgukirja saamist vastava sisuga materjali eetrist eemaldama.Sotsiaalmeedia keskkonna tarnija peab hiljemalt 24 tundi pärast vastava märgukirja saamist vastava sisuga materjali eetrist eemaldama.
Infoteadlane: närvidele käiva sõbra vaigistamisega teed iseendale karuteene

Valeuudiste, pettuste ja muu madala kvaliteediga info üha laienevat levikut saab selgitada inimeste piiratud tähelepanu ja informatsiooni üleküllusega. Valeinfo leviku piiramiseks ei piisa vaid inimeste eluterve kriitikameele arendamisest, tarvis läheb ka sotsiaalmeedia ettevõtete senisest jõulisemat sekkumist, selgub värskest teadustööst.

Vanalinna päevade avamineVanalinna päevade avamine
Postkommunismi varjud: vene elanikkonda iseloomustab endiselt skeptitsism

Kuigi peale valimisaktiivsuse on viimase 12 aasta jooksul suurenenud ka inimeste osalemine kodanikualgatustes, on Eesti elanikkond endiselt pigem võõrandunud ja skeptiline, selgub Tartu ülikooli ühiskonnateadlaste tehtud analüüsist. Siin mängib olulist rolli ka rahvuseline lõhe, mis on muutnud just siin elavad venelased pigem vaikselt protestivateks kui aktiivseteks kodanikeks.

Sauruste maailmale panid aluse vulkaanid

Kuidas dinosaurused hukkusid, see on praegu üsna selge: tuli suur asteroid, mis põhjustas üleilmse katastroofi. Kuid sauruste ajastu arvatavasti ka algas võimsate loodusnähtustega.