Masintõlke abil saab nüüd teksti tõlkida ka võru või liivi keelde

Tartu Ülikooli masintõlkemootori abil saab nüüd tõlkida 23 soome-ugri keelt. Enamik neist keeltest lisati avalikku tõlkemootorisse esimest korda. Teadlaste sõnul aitab see kaasa keelte säilimisele.
Teadlaste loodud Neurotõlke abil on nüüd võimalik tõlkida näiteks võru, liivi, päriskarjala, lüüdi või vepsa keelt. Kuna tegemist ei ole tänapäeval laialt levinud keeltega, on Tartu Ülikooli keeletehnoloogia professor Mark Fišeli sõnul vaja tõlget nendesse keeltesse selleks, et keeli säilitada.
Võro Instituudi grammatika teadur Sulev Iva rääkis, et tänapäeval on iga keele jaoks keeletehnoloogiline tugi äärmiselt vajalik, et keeled üldse saaksid maailmas alles jääda. "Praegune tõlkemasin on võru keeletehnoloogia tippsaavutus," sõnas ta.
Iva lisas, et mitu aastat said huvilised tõlkida tekste eesti keelest vaid võru keelde või vastupidi. Välisriikide kodanikest entusiastid pidid seeläbi end esmalt vähemal või rohkemal määral kurssi ka eesti keelega. Samal ajal vähendas mitmekordne tõlge sõnumi täpsust. Nüüd ei ole eesti keelt nii-öelda vahenduskeeleks vaja, vaid inglise, soome, saksa või vene keelest saab tõlkida otse võru keelde või teistesse keeltesse, mis hiljuti süsteemi lisati.
Iva ütles, et see laiendas võimalike kasutajate hulka tohutult. "Kui keegi tahab midagi võru keeles kirjutada, siis ei pea teksti enne eesti keelde tõlkima, vaid saab otse näiteks inglise keelt kasutades tõlke kätte. See on suur samm edasi," lausus Iva.
Keeruline protsess
Mark Fišel rääkis, et taoliste väiksemate keelte puhul on masintõlke pakkumine üsna raske. Tüüpiliselt on vaja selleks väga palju kirjalikku alusteksti ja tõlget. "Kui teeme eesti-inglise masintõlget, siis seal on kümneid miljoneid lauseid, mida on eesti ja inglise keele vahel tõlgitud," lausus ta. Selleks, et tõlge tuleks võimalikult täpne, kasutatakse erinevaid tekste: subtiitreid, Euroopa Parlamendi istungeid jms.
Väikeste keelte puhul leiab sellist treeningmaterjali märksa vähem. Seega kulus suur osa tööst tekstide kogumisele ja tõlkimisele. Selleks, et aru saada, kui hästi masintõlge välja tuli ilma keelt oskamata, on vaja etalontõlget ehk inimese poolt tõlgitud teksti, millega saab masintõlke varianti võrrelda. Keeli oskavad inimesed aitasid seeläbi ka tekste tõlkida, et siis võrrelda masina ja inimese tööd.
Hiljuti süsteemi lisatud keelte tõlgete kvaliteet kõigub professori sõnul rohkem kui levinud keelte puhul. See tähendab, et tõlked võivad olla veidi vigased. "Loodame, et masintõlke kasutajad, kes oskavad keelt rääkida, saavad korrektseid tõlkeid masinasse lisada," sõnas ta.
Kui kasutaja ei ole kindel, kas masin tõlkis jutu õigesti, soovitab Fišel tagurpidi tõlkimist. "Kui tahan ennast liivi keeles väljendada ilma, et ma seda keelt räägiks, tasub vaadata, kuidas liivikeelne tekst tagasi eesti keelde tõlgitakse. Kui tekst sisaldab sama infot, mis algne tekst, siis järelikult oli see täpne," ütles professor. Ta sõnas, et esimene tõlge ei pruugigi alati olla väga hea või täpne, seega tasub alati tagurpidi kontrollida.
Nii Fišel kui ka Iva näevad masintõlke kasutajatena kõiki, kel võiks olla nende keelte vastu vähegi huvi. "Mark Fišel ise kirjutas mulle täiesti korrektse e-kirja selle masina abil," sõnas Iva.
Samuti võimaldab tõlkemootor paremini teadust teha. Fišel tõi näite, et uurijad saavad tõlkida materjale, mis neile muidu arusaamatuks jääksid. See annab võimaluse paremini uurida nende keelte ja piirkondade ajalugu keelt oskamata.
Lisatud keeltest on Fišeli sõnul ilmselt kõige säravam näide liivi keel, sest seda ei kõnele emakeelena enam mitte keegi. Viimane seda teinud inimene – Grizelda Kristiņa – suri Kanadas 2013. aastal. Teise maailmasõja ajal esmalt Rootsi ja seejärel Kanadasse pagemise järel tegeles ta usinalt liivi keele säilitamisega. "Praegu hinnatakse, et on umbes 20 inimest, kes räägivad liivi keelt emakeele tasemel," sõnas ta.
Samas oli Fišeli sõnul liivikeelseid materjale rohkem kui nii mõnelgi muul keelel. Seda peamiselt seepärast, et Läti Ülikoolis tegutseb liivi keele instituut. "Instituudi abiga saime kokku 14 000 lauset, mida oli eesti või läti keelde tõlgitud. Mõnel teisel keelel oli neid lauseid palju vähem," lausus ta.
Uurimisrühm kutsub nende keelte kõnelejaid ja teadlasi üles andma tõlkekvaliteedi parandamiseks oma panuse parandatud tõlgetesse. Seda saab teha tõlkeid redigeerides.
Kokku toetab tõlkemootor praegu 23 soome-ugri keelt: lisaks eesti, soome ja ungari keelele, mis on paljudes tõlkesüsteemides saadaval, on selles nüüd ka liivi, võru, päriskarjala, aunuse, lüüdi, vepsa, põhjasaami, lõunasaami, Inari saami, koltasaami, Lule saami, komi, permikomi, udmurdi, mäemari ja niidumari, ersa, mokša, mansi ja handi keel.