Skandaalne ChatGPT – kuidas panna see eesti keele heaks tööle?

Keeletehnoloogia arengule tuult tiibadesse andnud ChatGPT-d ja teisi suuri keelemudeleid saab rakendada ka eesti keele jaoks. Nende pakutavate võimaluste ärakasutamine sõltub Eesti keelepoliitika otsustest ning meie keeletehnoloogide pingutusest, kirjutavad Eesti Keele Instituudi keeletehnoloogia kompetentsikeskuse keeletehnoloogid Eleri Aedmaa ja Helen Kaljumäe.
Palju elevust tekitanud juturoboti ChatGPT võimekus lahendada erinevaid teksti loomisega seotud ülesandeid on muljetavaldav. ChatGPT katsetamine on toonud suure hulga inimesi pika sammu lähemale tehisintellektile ja selle rakendamisele igapäevaelus. Palju tähelepanu saanud juturobot tundub uus ja innovaatiline läbimurre, mida on kõrvutatud lausa paljude inimkonna jaoks oluliste saavutustega, muu hulgas näiteks elektri leiutamisega.
Siiski pole suured keelemudelid, mida ka ChatGPT oma olemuselt on, keeletehnoloogias midagi uut. Nende võidukäik tehisintellektis ja keeletehnoloogias sai alguse juba 2017. aastal, mil Google tutvustas esimest transformermudelit. Just sellel arhitektuuril põhinevaid keelemudeleid on aasta-aastalt üha oskuslikumaks ja suuremaks treenitud.
ChatGPT – efektne, aga üks paljudest
ChatGPT pole tegelikult midagi muud, kui lihtsalt üldrahvalikult kättesaadavaks juturobotiks disainitud variant OpenAI 2020. aastal avalikustatud GPT-3 mudelist. GPT-3, nagu ka teised suured keelemudelid, on treenitud tohutul hulgal tekstidel. Sellel on umbes 175 miljardit parameetrit ehk väärtust, mis talletavad treeningandmetest õpitud teadmisi.
Tasub teada ja teadvustada, et OpenAI GPT-d ei ole ainsad turul eksisteerivad suured keelemudelid. Neid on treeninud teiste seas näiteks Google (BERT, LaMDA), Meta AI (ESMFold, Galactica), HuggingFace ja BigScience (BLOOM), DeepMind (Gato), Nvidia ja Microsoft (MT-NLG) jpt. Seejuures uute suurte keelemudelite treenimise trend jätkub – kõigi eelduste kohaselt lisandub juba sel aastal nimekirja GPT neljanda põlvkonna mudel, mis senistest veelgi suurem.
Miks me pole teistest suurtest keelemudelitest kuulnud sama palju, kui nüüd äkitselt ChatGPT-st? Üks oluline põhjus on see, et suured keelemudelid pole üldjuhul disainitud selliseks juturobotiks ehk vestluskaaslaseks, kellele saab päringuid esitada isegi tehniliste oskusteta kasutaja. Seega pole need laiale kasutajaskonnale nii hästi kättesaadavad, nagu on praegu ChatGPT oma demo kaudu.
ChatGPT võib olla lõbus – aga see on väga kallis lõbu
Miks ei ole suurte keelemudelite arendajaid oma mudeleid seni üldjuhul vabalt kättesaadavaks teinud, isegi mitte lihtsalt demoversioonina, nagu nüüd tehti ChatGPT-ga? Põhjus on üsna proosaline: asi on rahas, sealjuures väga suures rahas. Täpseid suurte keelemudelite treenimise kulusid on keeruline välja tuua, kuid esialgse hinnangu kohaselt kulus GPT-3 treenimiseks umbes 30 miljonit dollarit. Oletuste kohaselt maksab ChatGPT-laadse juturoboti ülalpidamine umbes 100 000 dollarit päevas.
Nii suurte mudelite treenimine ja rakendamine on võimalik vaid organisatsioonidele, kellel on selleks olemas sobiv taristu ehk finantsid ja/või riistvara. Sellised ettevõtted on üldjuhul suured korporatsioonid. Paraku seavad nad oma eesmärgid tihti kõrgemale üldsuse huvidest, näiteks mudelite treenimise mõju keskkonnale või avatud teadus, ettepoole ja nende mudelid pole vabavaralised. Need, kellel ei ole võimekust ise suurt keelemudelit treenida, peavad mudelite omanikele kasutamise eest maksma või rakendama vabalt kättesaadavaid mudeleid.
ChatGPT ajab soravat juttu – aga pole tegelikult ise kuigi tark
Suured keelemudelid suudavad lahendada palju erinevaid ülesandeid. ChatGPT genereerib näiteks teksti. See kirjutab luuletusi, vastab erinevatele küsimustele, analüüsib tekstide meelsust, kirjutab programmeerimiskoodi või seletab etteantud koodi lahti.
Seega nendele, kes ei vaja oma eesmärkide saavutamiseks mudeli edasist peenhäälestamist või värskeid fakte, võib ChatGPT demo osutuda abistavaks töövahendiks. Samal ajal peaks kasutaja olema teadlik, kuidas tehnoloogiat kasutada ning millised on selle kasutamise ohud ja piirangud. Samuti võiksid nad lahendada enda jaoks eetilised küsimused, mis kaasnevad seesuguste mudelite reaalsel rakendamisel.
Eeltoodud nimekiri erinevatest ülesannetest, mida suured keelemudelid lahendada suudavad, ei kata sugugi kõiki keeletehnoloogia valdkondi. Ühtlasi ei tööta need tipptasemel kaugeltki mitte kõigi keelte jaoks. Suuri keelemudeleid peetakse liiga üldistavateks ja tihtipeale pole nad võimelised lahendama eriilmelisi, kuid vajalikke ülesandeid. ChatGPT jääbki hätta mitmete ülesannete lahendamisel mitte ainult väikestes, vaid suurteski keeltes.
Paljud, kes on jõudnud ChatGPT-lt paluda eestikeelse teksti genereerimist, on märganud, et toodetud keel on küll üldjoontes arusaadav, kuid veider või lausa ebakorrektne. Seda seetõttu, et mudelit pole eraldi treenitud eestikeelse teksti tootmiseks.
Iga eestlane võiks teadvustada väga olulist fakti: see, et ChatGPT mingisugust eesti keelt nii-öelda oskab, on hetkeseisuga lihtsalt juhuslik, pelgalt kõrvalnähe. See, et ChatGPT genereerib teksti muu hulgas ka mitte alati korrektses eesti keeles, tuleneb asjaolust, et mudeli treeningandmestik pärineb internetist. Teadupärast sisaldab see lisaks suurtes keeltes (inglise, hispaania, prantsuse, hiina, vene jne) toodetud materjalidele ka väikestes keeltes (nt eesti või isegi seto ja võro) sisu.
GPT-3 kohta avaldatud teadustöös toodud andmetel moodustab treeningandmestikust 92 protsenti inglise keel, eesti keele osa on 0,01 protsenti. Samas tuleb nentida, et ChatGPT köögipool ei ole avalik. Keegi väljastpoolt ei teagi väga täpselt, mis andmeid täpselt kasutatakse või kuidas süsteem ikkagi töötab.
Kuidas uut juturobotite ajastut eesti keele heaks ära kasutada?
ChatGPT taga olev tehnoloogia ei ole iseenesest midagi uut. Uudne on see, et üks arendaja on sellise keelemudeli juturoboti kujul tasuta avalikuks teinud. See muudab tõepoolest mängu ja survestab teisi arendajaid sama tegema.
Mida tähendab see eesti keele jaoks? See võib tuua väga palju head. Seni on suurkorporatsioonide keelemudelite arendustöö viljad olnud meie eest valdavalt lukus. ChatGPT algatatud juturobotite võidujooks viib aga loodetavasti selleni, et nende taga olevaid suuri keelemudeleid tehakse aina rohkem ja parematel tingimustel kättesaadavaks.
ChatGPT kõrval, millest on avalikult proovitavaks tehtud vaid demoversioon, ongi juba saadaval päris vabavaralisi suuri keelemudeleid, näiteks BERT või BLOOM. Võib arvata, et ajapikku tuleb neid juurde või siis langevad keelemudelite osade kasutamise hinnad.
Iga hõlpsamini kättesaadavaks tehtud suur keelemudel on meile aga piltlikult öeldes toorik. Saame seda vajalikus suunas kujundada ja lihvida, et sellest saaks eesti keelt oskav digirobot. Varem pidanuks me ise suure keelemudeli väljaarendamiseks või olemasoleva kasutamiseks kulutama Eesti mõistes ebareaalseid summasid.
Nüüd on seevastu tõsist lootust, et saame suuri keelemudeleid eesti keele heaks tööle panna senisest märksa soodsamalt. Selle juures tuleb rõhutada, et ka keelemudelite eesti keele jaoks kohandamine on Eesti võimalusi arvestades väga kallis arendustöö, mis nõuab investeeringuid.
Suurte keelemudelite kvaliteeti saab parendada näiteks väikeste märgendatud ehk mingi ülesande tarvis spetsiaalse infoga varustatud andmestike abil. Selline töö, mis on üks osa ka Eesti keeletehnoloogiateadlaste tegemistest, ei ole vaid arvutile käskude jagamine, vaid rida ülesandeid märgendatud andmete ettevalmistamisest kuni mudelite miljardite parameetrite seast vaid oluliste värskendamiseni, sest terve mudeli treenimine pole võimalik.
Selleks et Eesti keeletehnoloogia tase käiks muu maailmaga ühte sammu, peab jätkuma eestikeelsete märgendatud andmestike loomine, sealhulgas sobivate andmete leidmine, märgendamisjuhendite kokkupanek, (pool)käsitsi märgendamine ja märgenduse hindamine. Sama kehtib peenhäälestatud mudelite ehitamise, sealhulgas eksperimenteerimise ja tulemuste hindamise kohta. Tuleb ka analüüsida, kas oluliste ülesannete lahendamiseks on üldse vaja kasutada kalleid suuri keelemudeleid või on otstarbekam rakendada hoopis teisi keeletehnoloogiameetodeid.
Lisaks on oluline pidevalt arvestada, et masina genereeritud keel on otseselt mõjutatud treeningandmete rohkusest, kvaliteedist ja sisust. Kui sellised keeleandmestikud pole avaandmetena vabalt kättesaadavad, pole ka lootust, et masinate toodetud keel paremaks muutub.
Suure võimaluse ärakasutamine nõuab suurt tööd
See kõik on suure keelemudeli nullist väljaarendamise kõrval väike, aga Eesti mõistes siiski väga suur töö. Samas on ülioluline mõista – kujundlikult öeldes on avanenud eesti keele arvutile selgeks õpetamiseks enneolematu võimaluste aken. Seda tuleb ära kasutada. Seega on ülioluline Eesti ehk eesti keeletehnoloogia pidev toetamine.
Kui me ise oma keele kvaliteeti suurtes keelemudelites ei panusta, ei tee seda keegi. Masinad nagu ChatGPT nii-öelda õpivad aga kusagilt-juhuslikult kättesaadud andmete põhjal eesti keelt ikka. Tulemused on sellisel juhul ilmselt hirmsad.
Näiteks ilma vastava sisuta andmeteta ei oska keelemudel vahet teha viisakatel ja ebaviisakatel keelenditel. Keelemudelite treenimiseks vajalike andmestike kvaliteet on oluline kasvõi selle jaoks, et seal ei oleks ebasündsaid väljendeid ega suisa roppusi. Muidu võib juhtuda olukord, kus arvuti õpib suhtlema ebaviisakalt. Kas meile meeldiks minna õhinal kasutama väidetavalt eesti keelt oskavat juturobotit, et saada vastuseks ebatsensuurne sõim?
Seni on olukord eesti keeletehnoloogias väga hea, sest Eestis on keeletehnoloogia arengut toetatud riiklike programmide kaudu pea 20 aastat. Tänu pikaaegsele riiklikule toele on tehnoloogiate ja keeleandmestike kvaliteet ja rohkus tõstnud meid Euroopa keeletehnoloogiate tippu. Seda edu tuleb hoida.
Elame huvitaval ja kiiresti arenevalt tehnoloogilisel ajastul. Tasub olla nutikas ja kasutada eesti keele heaks ära seda, mida teevad suured tehnoloogiahiiud. Hoidkem oma kõrget taset ning panustagem kvaliteetsete, mahukate ja variatiivsete keelematerjalidega, et ChatGPT ja teisedki keelemudelid oskaks ka väga head eesti keelt.
Toimetaja: Sandra Saar