Eksperiment: milline keelemudel tunneb eesti keelt ja kultuuri

Novaator küsis viie populaarsema keelemudeli käest eesti keelt ja kultuuri puudutavaid küsimusi ning koostas vastuste põhjal pingerea. Kõige terasemaid vastuseid andis Grok, kuid eesti teadlased on rahul ka spetsiaalselt eestikeelsel materjalil treenitud mudeli tulemustega.
Kui Arno isaga koolimajja jõudis, oli koolimaja juba maha põlenud. Just sellise vastuse võib saada praegu eestikeelsete materjalide peal treenitud keelemudelilt. Uurisime teadlastelt ja tegime eksperimendi, et saada aimu, kui palju saavad ajahädas põhikooliõpilased tehnoloogiat usaldada, kui küsimused puudutavad eesti keele ja kultuuri eripärasid.
Minieksperimendi valimisse kuulusid viis üldlevinud keelemudelit: Grok, Claude Sonnet, Gemini, Chat GPT ja Mistral. Lisaks testisime Tallinna Tehnikaülikooli, Tartu Ülikooli ja Eesti Keele Instituudi arendatavat juturobotit, mida treenitakse spetsiaalselt avatud eestikeelsel materjalil. Esitasime küsimused keelemudelite tasuta versioonidele ajavahemikus 9.-13. veebruar. Mudelite täpsema kirjelduse jaoks klõpsa graafikul.
Kõik keelemudelid vastasid kokku 20 küsimusele, mis jagunesid kahte kategooriasse: eesti keel ja eesti kultuurilugu. Küsimusi koostades pidasime silmas, et kaetud oleks võimalikult lai teemadevalik.
Kultuuriloo kategoorias küsisime näiteks Juri Lotmani "semiosfääri" mõiste kohta või palusime lõpetada lause "Kui Arno isaga koolimajja jõudis…" Keeleküsimuste puhul testisime mudelite murdekeele oskusi, aga uurisime ka näiteks seda, mitu täishäälikut on sõnas "jäääär".
Tartu Ülikooli arvutiteaduse instituudi keeletehnoloogia kaasprofessor Kairit Sirtsu sõnul olid tulemused mitmes mõttes üllatavad. Kui mudelite võrdset taset näitab ka teadlaste loodud tehisaru baromeeter, siis Groki keeletundlikkust ei osanud Sirts ennustada. Näiteks teadis mudel, erinevalt mitmest konkurendist, kuidas öelda võro keeles "tolmuimeja": muidugi "pudsunudsija".
"On raske pakkuda, miks Grok eesti keelt paremini teab. Kuna see kasutab treenimisel X-i säutse, on ehk mingid keelenäited sealtkaudu mudelini jõudnud," selgitas Sirts olukorda. Läbini aus olles ei ole aga tema sõnul praegu lõpuni teada, mis andmetega kommertsmudeleid treenitakse.
"Mudelite treenimise protsess on mitmeastmeline. Kõigepealt tehakse seda tekstide peal. Sellele järgneb järeltreeningu protsess, mille käigus näidatakse mudelitele erinevaid ülesandeid: kuidas vastata ja kasutaja juhist järgida. See on hästi oluline etapp, kuid sellest me teame kommertsmudelite puhul tegelikult veelgi vähem," lisas Sirts.
Kultuuriloo küsimustes erinesid tulemused vaid mõne vastusega. Sirtsu sõnul on teadmiste ühendamine ja seoste loomine keeleülene oskus, mis kandub ingliskeelsest treeningust üle. "Kultuuriteadmisi on mudelid ilmselt eksplitsiitselt rohkem näinud," sõnas Sirts. Eesti keelele spetsiifilist metainfot on aga mudelitel vähem.
Suurt rolli mängib tulemuste juures ka küsimuste sõnastus. "Vähemalt üks küsimus nõudis tegelikult loendamist: mitu täishäälikut on sõnas "jäääär"? See on pigem matemaatiline küsimus. Sellises loogilises järeldamises on mudelid väga erineva võimekusega ning see pole konkreetse keelega seotud," leidis Sirts.
Tallinna Tehnikaülikooli kõnetehnoloogia kaasprofessori ning keeletehnoloogia labori juhi Tanel Alumäe sõnul tekib mudelite keeleoskuse juures huvitav fenomen, kus suuremate keelte andmed aitavad ka väiksemate keelte puhul kvaliteeti tõsta. "Kui võtta viimase poole aasta jooksul välja tulnud mudelid, siis need on eesti keeles juba väga head. Küll aga teevad nad kõik siiski vigu ja kõvasti rohkem kui inimene," lisas Alumäe.
Alumäe ise testis viimati mudelite keele- ja kultuuriteadlikkust sügisel, kui pani proovile nende oskuse sõnu käänata ja definitsiooni põhjal leida, parandada grammatikat, teha kokkuvõtteid ja leida tekstist infot. "Üldiselt saavad suured kommertsmudelid kõige halvemini hakkama ülesannetega, kus on vaja toota väga täpset ja korrektset grammatikat. Näiteks käänamisega saavad aga tippmudelid väga hästi hakkama," selgitas Alumäe.
Sama kinnitasid Novaatori eksperimendi tulemused. Mudelite jaoks oli näiteks väga keeruline anda lause "Jüri sai palgi pantimise eest paraja palga" mitmeti mõistetavad tähendused. Kui sõnamäng "palgi" ja "palga" ei valmistanud probleeme, siis väljendi "paras palk" tähendusena toodi välja vaid rahaline tasu, mitte teisene tähendus ehk karistus.
Avatud andmetega Llama
Tallinna Tehnikaülikoolil, Tartu Ülikoolil ja Eesti Keele Instituudil on arenduses avatud andmetega mudel, mida treenitakse spetsiaalselt eestikeelsetel materjalidel. Avatud andmetel treenimine tähendab, et kogu mudeli treeningmaterjal on avalik ning kontrollitav. See tähendab omakorda, et vastuste andmiseks kasutatud andmehulk on oluliselt piiratum. Eesti teadlaste mudeli puhul umbes sada korda väiksem kui tippmudelitel.
Nii pole üllatav, et eesti keelel treenitud Llama mudeli tulemused jäid teistele alla. "Tulemus on ausalt öeldes väga julgustav, sest me plaanime varsti hakata samadel alustel treenima suuremat Llama mudelit, 70 miljardi parameetriga, kuigi ka see ei ole tegelikult nii suur kui kommertsmudelid," selgitas Kairit Sirts.
Sirtsu sõnul treenitakse praegu mudelit Eesti Keele Instituudi poolt hallatava ühendkorpuse andmetel. Lisaks on teadlaste käsutuses veebiandmed, mida kasutavad ka teised avatud keelemudelite treenijad.
Paraku ei pruugi sellest piisata, et vastata ka lihtsamatele kultuuriloo küsimustele. "Selleks, et mudel teaks, mis juhtub, kui Arno koolimajja läheb, peaks ta olema lugenud "Kevade" raamatut. Raamatutega on aga keeruline, sest neile laienevad autoriõigused," selgitas Sirts. Teadlaste käsutuses olevates eestikeelsetes treeningmaterjalides pole seetõttu paljusid Eesti kultuuri kultusteoseid.
Mida teevad Jaanus ja Albert ühe eesti kultusloo laulusõnades?
Chat GPT: Laulus "Tiffer" (bändilt Genialistid) Jaanus joob ja Albert joob.
Grok: Jaanus ja Albert destilleerivad (ehk teevad viina / moonutavad / keedavad moonaviina). See on otse Ursula ansambli kultuslaulust "Annamemenõu" (2005), mis on üks eesti undergroundi / alternatiivmuusika ikoone – täis absurdset huumorit, kordusi ja sõnamängu.
Gemini: Tegemist on ansambli Singer Vinger kultuslooga "Massikommunikatsioon" (sõnade autor Hardi Volmer). Laulus kirjeldatakse irooniliselt massimeedia mõju ja seda, kuidas raadiost tulev info on vältimatu ja kõikehõlmav. Katkend laulusõnadest: "On Jaanus ja Albert meil raadios, nad räägivad raadios, nad räägivad raadios…"
Mistral: See on tuntud laulu "Jaanus ja Albert" refrään, mis pärineb ansambli Apelsin loomingust. "Jaanus ja Albert tantsivad, tantsivad, tantsivad, tantsivad, tantsivad, tantsivad, tantsivad…"
Claude Sonnet: Vabandust, kuid mul ei õnnestunud leida konkreetset eesti kultuslaulu, milles esineksid tegelased nimega Jaanus ja Albert ning mis kirjeldaks, mida nad teevad.
Llama 3.1 EstLLM 8B: Jaanus ja Albert teevad kultusloo laulusõnades "kõrvalhüppe".
Sirtsu hinnangul ei ole ka realistlik, et avatud eestikeelsetel andmetel treenitud mudel jõuaks kommertsmudelitega samale tasemele. "Meie tahame ajada asju avatult ja ausalt. Oleme piiratud nende andmetega, mis on meile kättesaadavad."
Eesmärk ei ole konkureerida hiidudega
Teadlase sõnul ei olegi eesmärk konkureerida tehnoloogiahiidudega, vaid luua avatud eestikeelne keelemudel, mida on võimalik ka alla laadida. "Avatud mudeliga, mis jookseb enda serveris, on võimalik garanteerida, et andmed ei lähe majast välja. See on oluline stsenaariumides, kus on tundlikud või konfidentsiaalsed andmed," sõnas Sirts.
Tanel Alumäe lisas, et sõltuvust suurriikide ettevõtetest tuleb vähendada. "On palju ülesandeid, kus me ei taha oma andmeid saata USA või Hiina serverisse. Siis saab võtta selle tasuta mudeli ja kasutada seda oma kinnises serveris, nii et andmed kuskile välja ei leki."
Kairit Sirtsu arvates on vaja lisaks luua ja hoida kompetentsi. "Põhjus, miks me nende mudelitega tegeleme, on see, et treenimise protsess on tehniliselt päris keeruline. On oluline, et suured tehnoloogiaettevõtted ei dikteeriks tingimusi ja hindu. Kui meil on võimekus võtta mõni avatud mudel, mis on parasjagu kõige parem, ja parandada seal eesti keele taset, siis on meil asja üle mingi kontroll," lisas Sirts.



















