Tartu Ülikooli teadlased arendavad koos Mozillaga Firefoxi tõlkeprogrammi
Hiljuti levis rahvusvahelistes tehnoloogiauudiste portaalides uudis Mozilla uuest tõlkeprogrammist Bergamot. Vähesed teavad, et kõrgetasemelises meeskonnas aitavad masintõlget paindlikumaks ja kvaliteetsemaks teha ka Tartu Ülikooli keeletehnoloogid. Arvutiteaduse instituudi keeletehnoloogia professor Mark Fišel avab koostöö tagamaid.
Ingliskeelse meedia vahendusel projektiga tutvudes on võimalik teada saada, et tegemist on vabavarana kasutatavatele platvormidele, näiteks Mozilla Firefoxi veebibrauserile mõeldud masintõlkeprogrammiga (The Bergamot Project; vt browser.mt), mille suurim erinevus näiteks Google'i tõlkeprogrammist on selle kasutamise privaatsus. Kui enamik samalaadseid masintõlkeprogramme asub pilves, siis Bergamot tuleb laadida arvutisse ja selle kasutamisel ei koguta kasutaja kohta andmeid.
Bergamoti konsortsiumisse kuuluvad peale Tartu Ülikooli ja Mozilla ka Edinburghi Ülikool, Karli Ülikool ja Sheffieldi Ülikool.
Mark Fišel, palun kirjelda, mis projektiga täpsemalt tegemist on.
Asi sai alguse sellest, et nelja ülikooli keeletehnoloogid tahtsid koos teha Euroopa Liidu rahastatavat masintõlke teadusprojekti. Üks idee oli mahutada masintõlge ära veebilehitsejasse. Tänu Edinburghi Ülikooli kontaktisikule kutsusime partneriks Mozilla ja 2019. aasta jaanuaris projekt algaski. See on teadusprojekt – see tähendab, et suurem osa tegevusest on uurimistöö. Me uurime, kuidas muuta parimaid olemasolevaid masintõlkemeetodeid nii, et need oleksid veelgi paremad.
Mis see masintõlge täpsemalt on?
Masintõlke põhimõtet on lihtne kirjeldada: masin ehk arvuti peab automaatselt tõlkima teksti ühest keelest teise. See on üks vanimaid keeletöötluse ülesandeid, kuna sellega on aktiivselt tegeletud 1950. aastate algusest. Vaatamata pikale ajaloole ei ole ideaalset masintõlget veel suudetud saavutada, praktikas on selle kvaliteet aga piisavalt hea, et sellele kasutust leida. Kõige rohkem kasutatakse masintõlgitud teksti järeltoimetamiseks, mis seisneb automaatselt tõlgitud teksti käsitsi parandamises. Paljude tekstivaldkondade puhul on järeltoimetamise ajakulu keskmiselt väiksem kui nullist käsitsi tõlkides.
Mida peab tegema, et masintõlke väljundi kvaliteet oleks parem? Milles teie igapäevane töö seisneb?
Meie peamine roll seisneb selles, et teha masintõlkemootoreid paindlikuks ning teksti sisu ja stiiliga kohanevaks. Näiteks nähes autodest rääkivat teksti, peaks masin tõlkima sõna driver autojuhiks, kuid nähes teksti arvutitest, peaks seesama driver hoopis olema tõlgitud draiveriks. Või siis nähes ingliskeelset ametlikku teksti, peaks eestikeelses tekstis kasutama teie-, mitte sinavormi. Lõpuks peab programm need otsused suutma teha automaatselt.
Lisaks võtame osa teistest projekti töölõikudest: näiteks töötame tõlkekvaliteedi automaatse ennustamisega. Eesmärk on pärast tõlke genereerimist ka otsustada, kas see on õnnestunud või mitte. Seda on vaja selleks, et vajadusel hoiatada kasutajat kehva kvaliteediga tõlke eest.
Milline on valmistoode, kui kõik läheb plaanipäraselt?
Suur osa projektist on teadustöö ja eksperimendid, kuid lõpuks saab valmis ka töötav prototüüp. Praegu on plaanis teha uus tehnoloogia kättesaadavaks just Firefoxi veebilehitsejas.
Milline on selle erinevus praegusest Google'i automaattõlkest?
Peamine erinevus Google'i automaattõlkest ja selle Chrome'i masintõlkepluginast on see, et Google Translate töötab pilves, mis aga tähendab, et kõik sisendtekstid saadetakse tõlkimiseks Google'i serveritesse. Bergamoti masintõlge hakkab töötama kliendi arvutis, mitte pilves, mis tagab tekstide privaatsuse säilimise.
Teine eripära seisneb selles, et olemasolevad tõlkemootorid – sealhulgas Google'i ja Tartu Ülikooli oma – tõlgivad üksikuid lauseid ilma konteksti vaatamata. Tartu Ülikooli teadlaste panus Bergamotis peakski tagama selle, et tõlkemootor kohandub terve veebilehe konteksti ja stiiliga ning võtab arvesse muudki lisainfot, et tõlkekvaliteeti parandada.
Mis on shift to client-side translation, millele ingliskeelses meedias palju tähelepanu pööratakse?
Niinimetatud kliendipoolse tõlkega tegelevad meie partnerid Praha Karli Ülikoolis. Selle mõte on tagada tõlkekvaliteedi parandamise võimalus ka neile kasutajaile, kes väljundi keelt ei valda. Masintõlkesüsteemi eesmärk oleks antud juhul tuvastada, et osa sisendist on edukaks tõlkimiseks kas liiga keeruline või mitmetähenduslik, ning paluda kasutajal see ümber sõnastada.
Kokkuvõtteks võib öelda, et Tartu Ülikooli arvutiteaduse instituudi teadlased töötavad rakenduste kallal, mida ilmselt suur osa selle artikli lugejatest regulaarselt ka kasutab. Oluline on märkida, et kõik teadustöö tulemused saavad valmides ka ilma igasuguste litsentsideta vabalt kasutatavateks. Praeguse projekti käigus töötatakse tõlgetega inglise keelest eesti, poola, tšehhi, saksa, prantsuse ja hispaania keelde ning vastupidi.
Toimetaja: Randel Kreitsberg, Tartu Ülikool