Eksperdid: keelemudelid kujutavad inimväärilise tehisaru otsingutel tupikut

Suuri keelemudeleid võib küll laiendada ning paremini treenida, kuid inimesega võrreldavat üldintellekti ei saavuta need ilmselt mitte kunagi, selgus sadu valdkonnas tegutsevaid teadlasi haaranud küsitlusuuringust.
Kui masinad õpivad kunagi tegema kõike, mida suudab inimene ning peaksid neis asjus meid ületama, on sündinud üldine tehisaru ehk AGI (artificial general intelligence). Hiljutises küsitluses tunnistasid 475 tehisaruga tegelevat teadlast, et praegu poppi lähenemisviisi kasutades, AGI-ni ei jõuta. Täpsemalt vastas neist 76 protsenti, et suured keelemudelid saavad ka edasi arendamise tulemusel inimesega võrdseks või inimesest paremaks kas ebatõenäoliselt või väga ebatõenäoliselt, vahendab Live Science.
Tehisaru arendamise seltsi korraldatud küsitlusuuringu tulemus heidab kõrvale senised tehnoloogiatööstuse ennustused. Peale loova tehisaru buumi 2022. aastal ennustati valdavalt, et praegust tipptasemel tehisaru tarvitseb kostitada vaid suurema hulga andmete, riistvara, energia ja rahaga ning inimesega võrdväärne tase ongi peagi käes.
Nüüd näib, et esitletakse küll üha uusi suuri keelemudelid, ent nende võimekus enam paremaks ei lähe. Sama arvamust oli näha uue küsitlusuuringu vastustes. Enamik teadlasi leidis, et tehnoloogiaettevõtted on jõudnud tupikusse, kust ei aita enam välja suuremad investeeringud.
Uuringu üks autoreid ja California Ülikooli arvutiteadlane Stuart Russell osutab, et alates GPT-4 mudeli välja tulekust 2023. aasta kevadel on järgmised edusammud tehisaru arendamisel olnud kulukad ja kosmeetilised. Tema sõnul on ettevõtted mudelite arendusse investeerinud juba nii palju raha, et ei soostu enam ise oma eksiteele sattumist tunnistama. Sadu miljardeid dollareid panustanud investorite ootuste valguses jääb arendajatel Russelli sõnul üle üksnes oma ponnistusi kahekordistada.
Üha väiksemad võidud
Suurte keelemudelite ehk LLM-ide tohutu edu taga on osalt nende treenimiseks kasutava transformermudeli ülesehitus. Seda tüüpi masinõpet esitlesid esimest korda 2017. aastal Google'i teadlased. Sellise transformeriarhitektuuri puhul imab masin piltlikult öeldes inimese ette antud treeningandmed endasse, et nende toel kasvada ja õppida.
Selline ülesehitus võimaldab mudelitel luua oma tehisnärvivõrkudes tõenäosusmustreid. Erinevalt varasematest mudelitest, mis töötlesid teksti ükshaaval, võimaldavad transformermudelid kogu sisendit korraga analüüsida. See annab mudelile suurema arusaama kontekstist. Lauseid lugedes ei loe need mitte ükshaaval sõnu, vaid võtavad arvesse terve lause. Mida rohkem andmeid korraga ette antakse, seda täpsemaks muutub taoline kontekstitaju.
Mudelite arendamine on väga kallis ja energiamahukas. Ainuüksi 2024. aastal paigutasid investorid kogu maailmas loova tehisintellekti arendavasse tööstusesse 56 miljardi dollari väärtuses riskikapitali. Enamik sellest rahast kulub hiiglaslike andmekeskuste ehk piltlikult öeldes serveiparkide ehituseks. Selleks kasutatavate andmekeskuste süsinikuheide on praegu kolm korda suurem kui 2018. aastal.
Inimeste toodetud avalikke andmeid on maailmas aga lõplik hulk. Ennustuste järgi on masinad kõik need õppimiseks ära kasutanud praeguse kümnendi lõpuks. See tähendab, et tehisaru edasiseks arendamiseks oleks vaja saada ligipääs inimeste privaatsetele andmetele. Teise võimalusena võiks sööta masinatele tehisaru loodud n-ö sünteetilisi andmeid. Nendega on siiski suurem oht, et mudelid hakkavad omaenda andmeid neelates senisest rohkem hallutsineerima ning võimendavad juba neis olemasolevaid ebakõlasid.
Küsitlusele vastanud ekspertide sõnul pole praeguste mudelite aeglase arengu taga üksnes nälg andmete või muude ressursside järele. Pigem näevad teadlased süüd mudelite ülesehitusest tulenevates põhimõttelistes piirangutes.
Tuntud tehisintellekti ekspert Stuart Russell arvab, et praegused tehisaru mudelid, mis kasutavad tohutult suuri n-ö ahelaid ehk keerulisi ühendusi, ei suuda tegelikult mõistetest aru saada, vaid toimivad pigem hiiglaslike nn otsingutabelitena, millel on palju lünki ja puudujääke. Seetõttu suudab inimene neid mudeleid mõnes vallas isegi ületada. Tahtes mingit mõistet kasvõi ligilähedaselt õigesti kasutada, peavad tsüklid paisuma tohutult suureks. See eeldab tohutut andmehulka ning nende tükkhaaval lünklikku esitamist. Seepärast võidavad inimesed näiteks go-mängus arvuteid endiselt hõlpsasti.
Kuhu edasi?
Andmete, raha ja serveriparkide piiratud hulk on tehisaru arendajatele tõsine katsumus. Nii on mudelite punktiskoorid jäänud nende võimekust hindavates testides viimasel ajal samale tasemele. Samuti oletas osa küsitlusele vastajaid, et OpenAI ei jõuagi kunagi oma järgmise usutavasti hüppeliselt parema GPT-5 mudeli avaldamiseni.
Tänavu sai eeldus, et rohkem ressursse tagab alati edu, veel ühe hoobi. Hiina ettevõte Deepseek suutis oma mudeliga saavutada Ränioru mudelitega samaväärse tulemuse, aga vajas selleks vaid murdosa ameeriklaste kulutatud rahast ja energiast. Edu taga oli varasemate tehisaru mudelite väljundite nn destilleerimine. Sestap vastas 79 protsenti küsitletud teadlasi, et tehisaru võimetele antud hinnangud ei lähe tegelikkusega kokku. Russelli sõnul pidas mitu vastajat tehisaru praegust võidukäiku mulliks, eriti kui suhteliselt hästi töötavaid mudeleid pakutakse tasuta.
Vastajaid ei tõtta tehisaru päris maha matma. Praegu arendatakse arutlevaid mudeleid, mis kulutavad vastuste andmisele tavalistest mudelitest rohkem aega ja energiat. Juba on näidatud, et võrreldes tavaliste mudelitega annavad need päringutele paikapidavamaid vastuseid.
Küsitluse vastajate hinnangul oleks huvitav uus arengusuund kombineerida arutlevaid mudeleid teiste masinõppesüsteemidega. Deepseeki edu näitab nende hinnangul ühtlasi, et ka tehisarusüsteemide kujundamisel on inseneritöös arenguruumi. Lisaks võiks vastajate sõnul jõuda inimesega võrdväärse tehisaruni pigem tõenäosusliku programmeerimise kui praegu valdavalt kasutatud tsüklitel põhinevate mudelite toel.
Raporti ühe kaasautori ja Oregoni Osariigiülikooli arvutiteaduse emeriitprofessori Thomas Dietterichi sõnul elab tööstus praegu tugevas usus, et tulevikus saab loovat tehisaru rakendada suure lisandväärtuse loomiseks. Varem on suured tehnoloogilised uuendused hakanud suurt kasumit tootma aga alles 10–20 aasta jooksul. Ühtlasi kipub igas uuenduses esimene ettevõtete laine põruma. Millised praegustest tehisaruhiidudest põruvad või edukaks osutuvad, näitab aeg.
Toimetaja: Airika Harrik