Keeletehnoloog: seitsme aasta pärast mõistab tehisaru liivikeelset sarkasmi

Jaanuarist alates ühendab kohalikke arvutiteadlasi Eesti tehisintellekti tippkeskus. Muu hulgas käib keskuses arendustöö eestikeelse suure keelemudeli kallal. Niisamuti proovivad teadlased kõnesünteesi ja -tuvastuse koosmängu toel anda keelemudeli ka väikestele soomeugri keeltele, ütleb Tartu Ülikooli keeletehnoloogia professor Mark Fišel.
Suured keelemudelid nagu ChatGPT ja GPT4 on Fišeli sõnul tänapäeva teaduses kuum teema. "Üks nende puudujääk on, et nad töötavad hästi keeltega, millel on palju rääkijaid, tekste ja andmeid. See tähendab, et isegi parimad tänapäeva keelemudelid ja tooted, kaasa arvatud GPT4, pole eesti keeles töötades inglise keelega võrdselt targad," võrdleb ta.
Eesti keel on oma veidi üle miljoni kõnelejaga digitaalsete tekstide, ressursside ja keeleandmete mahu poolest Fišeli hinnangul maailmas keskmik. Samas leidub kõnelejaid ka palju väiksematel liivi, isuri ja vadja keelel ning võro murdekeelel. "Neile kõigile võiks pakkuda nende emakeeles või murdes suurkeeltega võrdset digitaalset tuge: juturoboteid, tõlget, kõnet ja võimalust arvutiga rääkida," loetleb professor.
Väikekeelte toetamine kvaliteetse keelemudeliga saab tema sõnul olema üks suund, millega uues tippkeskuses tegeletakse. Üks võimalus selleks on Fišeli sõnul lihtsalt iga väikekeele kohta andmeid juurde koguda. Teiseks saavad teadlased tekste väikekeeltesse automaatselt tõlkida, et masina õppevara oleks suurem. "Eesti keele instituudi ühendkorpuses on neli miljardit sõna, aga sellest jääb väheks. Oleme seega teistest keeltest eesti keelde tõlkinud veel 20 korda rohkem tekste. Need ei asenda inimese loodud tekste, aga vähemalt annavad võimaluse mudeleid kasvõi umbkaudselt õpetada," kirjeldab professor.
Kolmas ja Fišeli sõnul kõige põnevam viis on muuta keelemudelite õpetamise meetodeid. Siin saaks eeskuju võtta inimlapse keeleomandamisest. Esimese viie eluaasta jooksul kuuleb inimene viit miljonit sõna. Sellest piisab, et välja areneks võrreldamatult parem keele mõistmine ja intelligents kui tehisarul. "Seega, see pole võimatu, lihtsalt meie meetodid pole täiuslikud. Arendame ehk paremaid meetodeid, mis ei nõuaks miljardeid sõnu, vaid saaksid hakkama vähesemaga," arutleb Fišel.
Siin võiksid professori sõnul teineteisele käe ulatada Tartu Ülikooli neurokõne kõnesüntees ja Tallinna Tehnikaülikooli automaattranskriptsioon. "Vaatame, kas üks võiks toetada teist. Kas näiteks kõne sünteesimine võib luua andmeid selleks, et keelt tuvastada? Kas me saame seda teha ka mitmekeelselt?" sõnab ta. Kuna väikeste soome-ugri keelte kohta pole lootustki koguda suurt andmehulka, võib loodav keelemudel toimida keeleperekonna põhjal – üks keel võib seal toetada teist.
Eesti oma juturobot?
Eestikeelne suur keelemudel peaks Mark Fišeli sõnul vastama kolmele kriteeriumile: "Mudel peab olema avatud ja vabavaraline, et kõik saaksid seda kasutada tasuta. Ta peab olema pädev ja kaasaegne. Lisaks peab ta oskama eesti keelt."
Praegu on eestlaste käsutuses mudelid, mis vastavad kahele kriteeriumile kolmest. "Näiteks ChatGPT ja GPT4 on kaasaegsed ning oskavad eesti keelt, aga pole vabavaralised," osutab professor. Eesti keelt valdavad vabavaralised mudelid on vananenud ega ilmuta uute suurte keelemudelite isetekkelisi oskusi. Facebooki emafirma Meta arendab aga vabavaralisi uusi mudeleid, mis ei valda eesti keelt.
Kaks Fišeli juhendatud doktoranti tegid juba esimese katse õpetada Meta keelemudel Llama 2-le juurde eesti keelt nii, et mudel samas inglise keelt ära ei unustaks. "Nimetasime selle eesti keeles Llammas-eks," muigab professor.
Tegu oli aga vaid teadusliku katsetusega ning praegu taotlevad Fišel, keeletehnoloog Kairit Sirts ja automaattranskriptsiooni arendaja Tanel Alumäe oma teadusrühmadele rahastust eesti keelele tugeva vabavaralise keelemudeli loomiseks. "Me ei tee enam väikest Llammast, vaid midagi korralikku, mida saaksid kasutada nii avalikud asutused kui ka ettevõtted. Eesti keelel oleks siis olemas oma Llama 2, Mistral, Claude või ChatGPT," võrdleb professor.
Töö ootab veel tegemist
Eesti tehisintellekti tippkeskuse avaüritusel pidas Mark Fišel ettekande pealkirjaga "No, we are not done yet!" ('Ei, me pole veel lõpetanud!'). Ta püüdis ettekandes lammutada petlikku muljet, et suured keelemudelid on juba väga head ja näiteks eestikeelse mudeli arendamiseks raha eraldada pole mõtet. "Kui hakata süstemaatiliselt hindama, kuidas mudel oskab isegi inglise keelt, siis sealgi on väga palju veel auke või puudujääke täita," põhjendab ta.
Mudel saab hästi toime küll rutiinsete ja palju läbi harjutatud ülesannetega, ent kõrgema taseme loogikaga jääb kimpu. Fišeli töörühm andis nii inimestele kui ka mudelile lugeda Sherlock Holmesi stiilis detektiivilugusid. Seejärel paluti mõlemal ennustada, kes on mõrvar. "Kui inimesed teevad seda keskmiselt 47 protsendi täpsusega, siis parimad keelemudelid üsna juhuslikult. GPT4 sai umbes 28 protsenti," võrdleb Fišel. Kuna tüüpiliselt peab valima nelja tegelase vahel, on ligi 25 protsendil juhtudest täppi pakutud vastus professori sõnul pigem juhuslik.
Teisalt võivad hästi treenitud keelemudelid juba ära tunda näiteks sarkasmi ja irooniat. "Kui mängu tulevad mingid ootamatud tekstid, milles esineb murret, žargooni või väga spetsiifilist erisõnavara, läheb samas mudeli kvaliteet kohe alla. Siis see ei pruugi hakkama saada isegi inglise keeles," seletab Fišel.
Piltlikult võib tema sõnul niisiis öelda, kui uue tippkeskuse seitse aastat mööda saavad, on liivi, vadja ja isuri keelel piisavalt tekstiressurssi, et luua mudel, mis mõistaks nendes keeltes muu hulgas sarkasmi. "Vähemalt saab siis keelemudelilt küsida, et: "Siin on terve rahvaluule kogum liivi keeles. Mis teemad on seal kõige sagedasemad?". Või siis saaks küsida liivikeelse teretuse tēriņtš päritolu," toob ta näiteid. Mudel oskaks vastuseid anda nii keele sisu kui ka ajaloo kohta, vajamata treeninguks miljoneid sõnu.
Tehisintellekti tippkeskus tegeleb Fišeli sõnul järgmised seitse aastat enama kui vaid keelega. "Sinna kuulub veel põhjapanevam töö selle kallal, et tehisaru kasutamine oleks usaldusväärne: et selle abil ei saaks teisi petta või see ei hakkaks meid petma," kirjeldab ta. Samuti keskendutakse keskuses tehisaru praktilistele rakendustele e-riigis, e-õppes, terviseandmetes ja ärianalüütikas. "Kõik need meetodid ei saa eesti keele kontekstis tõhusamalt kasutatavaks isegi mitte seitsme aasta pärast, vaid seitsme aasta jooksul," ütleb Fišel.