Soomlaste ChatGPT analoog hakkab mõtlema ka eesti keeles
Soome Turu Ülikool arendab koos välispartneritega kõiki Euroopa keeli, sealhulgas eesti keelt tundvat tehisaru, mille eesmärk on tagada väikekeelte säilimine ka ChatGPT-järgsel ajastul. Eesti Keele Instituut (EKI) peab algatust hädavajalikuks ning hoiatab, et tipptasemel keelemudeli loomiseks tuleb digiteerida senisest palju rohkem eestikeelseid tekste.
"Ingliskeelne ChatGPT jahmatas maailma sellega, kui oskas inimese sarnaselt tavakeelest aru saada ja ise samamoodi vastata. Selle taga ei olnud aga mingi imetehnoloogia, vaid ennekõike see, et programmile anti ette enneolematult palju tekste, mille seest mustreid leida ja õppida niimoodi inimeste suhtlust imiteerima," ütles EKI keeletehnoloog Eleri Aedmaa.
"Äsja alanud uuel keeletehnoloogia ajastul tekstide mass loeb. Eesti keelega selle kriitilise massi saavutamiseks peaksime digiteerima ja avalikuks tegema kõik tekstid, mis vähegi võimalik. Kogu Rahvusraamatukogu, kõik arhiivid, võimalikult palju uusi ja vanu uudiseid ning veebisuhtlust. Mida rohkem eesti keelt on veebis vabalt leitav, seda kindlam on eesti keele tulevik," toonitas keeletehnoloog.
Uue, maailma suurima avatud keelemudeli arendamist juhib Turu Ülikool ning keeletehnoloogiaettevõte SiloGen. Kõiki Euroopa keeli hõlmav keelemudel rakendab maailma suuruselt kolmandat ja Euroopa suurimat superarvutit LUMI. Aedmaa sõnul on eesti keele jaoks võtmetähtsusega, kui palju erilaadi ja algupäraseid digitaalseid eestikeelseid tekste on võimalik nii sellele kui ka tulevastele keelemudelitele õppimiseks ette anda.
ChatGPT mõtleb ainult inglise keeles
Aedmaa sõnul on praegu populaarseks saanud suurte keelemudelite üheks nõrkuseks see, et neid on treenitud peaaegu täielikult inglise keele põhjal. See tähendab, et kuigi GPT-4 otsekui saab eesti keelest aru, on tegu ikkagi ainult tõlkimisega. Piltlikult mõtleb masin inglise keeles ja tõlgib jutu viimasel hetkel eesti keelde. "See on aga eesti keelele pikemas plaanis väga ohtlik," selgitas Aedmaa.
"Nimelt peitub selliste uute tööriistade väärtus selles, et need nii-öelda mõistavad lisaks kitsalt sõnadele ja lausetele ka laiemat kultuurikonteksti. Kui keelemudel on treenitud ainult ingliskeelse materjali baasil, siis see paratamatult eesti kultuuri ei tunne," tõdes keeletehnoloog.
"Olukord on võrreldav sellega, kui leiutati trükipress – mis oleks eesti keelest saanud, kui raamatuid oleks trükkima hakatud ainult suurkeeltes, aga eesti keeles mitte?" märkis Aedmaa. See mure vaevab tema sõnul enamikku maailma keeli.
Soomlaste algatusel loodav keelemudel on GPT-laadne digitaalne masin, mida on algusest peale treenitud paljude erinevate keelte põhjal. "Eesmärgiks on Euroopa keelte suveräänsus ja keeletehnoloogia demokraatlikkus. Uus keelemudel on erinevalt enamikust senistest ka avatud koodiga – selle loogika on läbipaistev ja seda saavad kõik soovijad uute keeletehnoloogiarakenduste jaoks kasutada," ütles Aedmaa.
Soomlaste projekti toetab Business Finland, mis on Eesti EISA-le sarnanev asutus. Samuti on toetatud seda Euroopa Liidu Horizoni meetmest. Viimaks on keelemudeli arendajad saanud katsetamiseks hulganisti tasuta treeningtunde LUMI-lt endalt.
Eestikeelseid allikaid on suure keelemudeli treenimiseks liiga vähe
EKI keele- ja kõnetehnoloogia osakonna juht Kadri Vare sõnas, et EKI otsib hetkel täiendavaid võimalusi, kuidas soomlastele abiks olla. "Tahame nendega koostööd teha, oleme esimesed sammud selleks ka astunud. Siis saame juba täpsemalt öelda, kui palju ja mida saame selle projekti heaks teha. Oleme panustanud juba sellega, et kõik meie keeleandmed, mida seadus avaldada lubab, on neile saadaval," ütles Vare ERR-ile.
Eelkõige saab Vare sõnul algatuse õnnestumisse panustada veelgi suurema hulga andmete digiteerimise ja avalikustamisega. "Praegu me päris täpselt ei tea, mida nad on kuskilt võtnud, suured keelemudelid kasutavad kogu internetti ja iga kirja pandud sõna. Me ei tea, kas nad on juurdepääsu saanud ka võib-olla natukene kinnisematele andmetele kusagil. Seda oleks oluline teada saada," märkis ta.
Praegu kipub aga saadaval olevat eestikeelset materjali suurele keelemudelile väheks jääma. "Teame, et suuremates keelekorpustes on eestikeelseid avalikke andmeid umbes kolme miljardi sõna jagu. Samas inglise keeles on enam kui 800 miljardit sõna. Võib tunduda, et kolm miljardit on palju, aga tegelikult on seda ikkagi vähe. Eesti keelt ja kultuuri mõistvat tehisaru selle pealt treenida ei saa. Seda on lihtsalt liiga vähe," tõdes Vare.
Praegu tegeleb EKI suure eesti keele ühendkorpuse kogumisega. "Need andmestikud on avatud ja me jagame neid hea meelega. Ma arvan, et keele säilitamise vallas ongi Eesti üks olulisemaid eesmärke suurtes avatud keelemudelites osalemine ning nende jaoks andmestike kogumine," võttis ta kokku.