Eesti arvutiteadlasi üllatab Hiina uue tehisaru võimekus

Eesti tehisintellekti uurijad märgivad, et palju kõneainet tekitav Hiina päritolu DeepSeek-R1 keelemudel on võimekuselt võrreldav kõige paremate saadaval olevate mudelitega, eesotsas ChatGPT lipulaevadega. Sealjuures paistab, et hiinlased saavutasid enda tulemused märksa väiksema rahalise ja ajalise kuluga ning seda kõike USA kiibipiirangute tingimuses.
"Kui rääkida R1 mudeli võimekusest, on tõesti üllatav, et minu enda katsetuste põhjal on see üsnagi võrreldav ChatGPT o1 mudeliga, mis on kõigist kättesaadavatest mudelitest hetkel kõige tugevam," ütles Tartu Ülikooli tehisintellekti professor Meelis Kull. Ta lisas, et OpenAI on treeninud ka o3 mudeli, kuid avalikkusel puudub sellele laialdane ligipääs.
Kõige selle juures tõi Kull ühe huvitava erinevusena välja tõiga, et kui suur osa ChatGPT o1 mudeli mõtteprotsessist jääb peidetuks, siis R1 mudel on hulga läbipaistvam. "See ei tähenda muidugi, et me väga palju täpsemalt aru saaksime, kuidas see mudel mõtleb. Tehisnärvivõrkude puhul on raske selgitada, mille põhjal need sisemiselt otsuseid teevad," tõdes teadlane.
Niisamuti üllatab Kulli, et niivõrd tugev mudel tehti kohe täielikult avalikuks. "Seda on võimalik alla laadida ning ise jooksutada. Muidugi nõuab see arvutuste tegemiseks tugevat serverit, millel on mitu graafikaprotsessorit. Tavaline sülearvuti või lauaarvuti sellega hakkama ei saa."
Siiani on enda mudelite lähtekoodi avalikult pakkunud eelkõige Meta, kuid Kulli hinnangul on nende Llama (Large Language Model Meta AI) mudelid jäänud siiani võimekuselt tasulistele ChatGPT mudelitele alla.
"Kuna DeepSeeki mudel on vabavaralisena välja antud, näeme selle arhitektuuri. ChatGPT uuemate mudelite puhul pole teada, milline nende arhitektuur välja näeb. Ka DeepSeeki puhul pole teada, kuidas seda täpselt treeniti, aga nad tegid ikkagi ootamatult palju asju avalikuks," tõdes ta.
Kull märkis, et hiinlaste väljapandud mudel on võrreldav ChatGPT tasuliste mudelitega. "Võib-olla saab erandina välja tuua ChatGPT o1 Pro-versiooni, mille kasutamise eest tuleb maksta 200 eurot kuus. See võib DeepSeeki mudelist üle olla," arutles Kull.
Hiinlased tegid vähemaga rohkem
Meelis Kulli sõnul nähtub hiinlaste avaldatud andmetest, et R1 mudeli treenimiseks kulus 2,788 miljonit GPU-tundi protsessoriaega ehk ümberarvutatuna enam kui 300 GPU-aastat. "Ühest küljest tundub see ajahulk ülisuurena. Teisest küljest on tegu ilmselt märksa väiksema hulgaga, mis kulus ChatGPT mudelite treenimiseks," sõnas ta.
Kuna OpenAI taolisi numbreid ei avalda, ei saa kahe mudeli treenimiseks kulunud aega kuigi hästi võrrelda. Samas on Kull küllaltki veendunud, et R1 treenimiseks kulunud aja hulk on madalam.
"Ilmselgelt on nende treenimise metoodika maailma tipptasemel. Kui palju seal tõelist uuendust on, ei oska ma praegu öelda. Üks tehnika, millele nad rõhuvad on mixture of experts. Lihtsustatult öeldes koosneb mudel mitmest harust, mille arvamused ühildatakse kokku," selgitas professor.
Vaatamata vabavaralisusele ja suhtelisele läbipaistvusele, soovitab Kull jääda DeepSeeki kasutamisel äärmiselt ettevaatlikuks. Kõik sisestatud tekst käib Hiinas paiknevate serverite kaudu, millega kaasneb väga suur turvarisk. "Sinna ei tohi kindlasti mingisugust tundliku informatsiooni sisestada," toonitas ta.
Kui avatud mudel alla laadida ja enda serveris käima panna, on riskid juba madalamad, tõi Kull välja. "Sel juhul on võimalik arvutit jooksutada interneti ligipääsuta ning mingisugust informatsiooni ei leki. Küll tasub sel juhul meeles pidada, et mudelit on treenitud edastama Hiina valitsuse seisukohti. See pole isegi otseselt ohtlik, aga ta teatab, et Taiwan on Hiina osa jne."
DeepSeek on Hiina jõudemonstratsioon USA-le
Tallinna Tehnikaülikooli tarkvarateaduse instituudi professor Tanel Tammet märkis, et R1 mudeli võimekus üllatas tedagi, kuigi midagi fundamentaalselt šokeerivat selles ei ole. "Hiina tehisintellekti arendus on tükk aega olnud väga kõrgel tasemel. Kui vaadata hiinlaste kirjutatud teadusartiklite protsenti juhtivates foorumites, on see ikka väga kõrge," täheldas ta.
Tammeti hinnangul toimub Hiinas tehisaruga rohkem katsetamist kui USA-s. Kuna neil puuduvad USA tehnohiidudega võrreldavad rahalised võimalused ning Hiinale on kehtestatud lisaks kiibipiirangud, kannustab see hiinlasi nutikamalt tegutsema. Selles valguses võivad piirangud toimida hoopis omamoodi innovatsiooni mootorina.
"Hiinas töötavad keelemudelite kallal hästi paljud erinevad grupid nii firmades kui ka suuremates ülikoolides. Nad katsetavad pidevalt, kuidas mudeleid paremini treenida. Proovitakse väga erinevat moodi. On täiesti selge, et kui proovida väga erinevaid asju, siis vahel jõutakse ka mõne avastuseni. Arvan, et hiinlastel on täpselt nii juhtunud," sõnas Tammet.
Tehisintellekti arenduses juhtivad USA suurkorporatsioonid, nagu OpenAI, Meta ja Google, võivad Tammeti hinnangul olla liialt kinni enda senises edus, mistõttu ei näe nad nii suurt vajadust täiesti teistsuguseid lahendusi proovida. "Eks nad pingutavad ka pidevalt edasi, aga ju neil on ikka mingid eeldused, et just nii peab tegema ja teisiti pole mõtet proovida," arutles professor.
Meta, Google ja OpenAI pole Tammeti sõnul juba tükkaega ühtegi suuremat edasiminekut näidanud. Toimub küll väiksemaid hüppeid, aga mitte midagi kiiret. "See ei käi enam nii, et paned lihtsalt muudkui kiipe juurde, treenid kauem ja siis läheb see paremaks. Arvan, et selline massiga löömine enam väga palju juurde ei anna ning platoo on juba päris lähedal," tõdes professor.
"Põhimõtteliselt on praegu nii, et hiinlased treenisid enda mudelit natukene teistmoodi. Mitte fundamentaalselt teistmoodi, aga nad on rakendanud mitmeid uusi ja huvitavaid ideid. Eksperdid on nende ideede kohta juba teadusartiklitest lugenud ja ütlevad, et jah, see võiks niimoodi töötada küll," lisas Tammet.
Tammetil on teooria, mis puudutab DeepSeek-R1 avalikustamise ajastust. "Ühendriigid karmistasid hiljuti Hiinale kehtivaid kiibipiiranguid. Ma ei välista, et hiinlastel oli see tulemus juba natukene aega tagasi olemas. Nad leidsid aga, et just praegu oleks poliitiliselt kõige mõjusam aeg selle avalikustamiseks. Kuidagi väga hästi oli see kõik ajastatud," võttis professor kokku.