Selgusid parimad eesti-inglise-eesti tõlkemootorid ({{commentsTotal}})

TÜ arvutiteaduse instituudi keeletehnoloogia õppetooli juhataja Mark Fišeli hinnangul on eesti keel masintõlke jaoks keerukas.
TÜ arvutiteaduse instituudi keeletehnoloogia õppetooli juhataja Mark Fišeli hinnangul on eesti keel masintõlke jaoks keerukas. Autor/allikas: Erakogu

Tänu Tartu Ülikooli teadlaste pingutustele kasutati masintõlkesüsteemide rahvusvahelisel võistlusel esimest korda eesti keelt. Kõige paremini tõlkisid eesti ja inglise keelt omavahel Baltikumis ja Skandinaavias tegutsev keeletehnoloogia ettevõte Tilde ning jaapanlaste loodud tõlkemootorid.

Rahvusvahelist masintõlkekonverentsi WMT, mille osana tõlkemootorite võistlus toimub, korraldatakse alates 2006. aastast. Möödunud nädalal pandi Brüsselis võistlusel peale eesti keele inglise keelega paari veel saksa, hiina, tšehhi, türgi, vene ja soome keel.

TÜ arvutiteaduse instituudi keeletehnoloogia õppetooli juhataja Mark Fišeli hinnangul on eesti keel masintõlke jaoks keerukas.

"Eesti keele teeb masintõlke ja automaatse keeletöötluse jaoks raskeks rikas morfoloogia ehk suur arv käändeid ja pöördeid. Samuti on tõlkemootorite jaoks raske eesti keeles vabalt varieeruv sõnade järjekord. Probleem on ka see, et eestikeelsete tõlkenäidete arv on teistest keeltest väiksem. Võistlusel kasutatud väljundikeeltest ongi kõige keerulisemad eesti, soome ja türgi keel," rääkis Fišel.

Ta lisas, et hoolimata eesti keele keerukusest on tänapäevane masintõlge üllatavalt hea kvaliteediga ja suudab luua soravat teksti. "Kuigi tööd tuleb veel palju teha, on juba olemas täiesti kasutatavad tõlkemootorid."

Inimesed hindasid masinat

Konverentsil ja võistlusel osalejad said jaanuaris iga keelepaari kohta mitu miljonit tõlkenäidet. Nad kasutasid näiteid, et masinõppe abil oma tõlkesüsteeme õpetada.

Mai alguses anti kõigile osalejatele iga keelepaari kohta tõlkimiseks kaks teksti. Nii said nad eesti-inglise-eesti tõlkemootori testimiseks ühe ingliskeelse teksti, mille nad pidid tõlkima eesti keelde, ja ühe eestikeelse teksti, mis tuli tõlkida inglise keelde. Võistlejatel tuli panna need tekstid automaatse tõlkesüsteemi abil teise keelde ümber ühe nädala jooksul.

Seejärel hindasid teadlased ja tudengid Tartu Ülikooli korraldatud talgutel, kui hästi on automaatsüsteemid ingliskeelsed tekstid eesti keelde tõlkinud. Nad võrdlesid automaattõlget inimtõlkega.

Kogutud hinnangute alusel reastati tõlkesüsteemid usaldusväärsuse järgi. Tõlkemootorite tõlgitud tekstidest leiti nii häid, omajagu häid kui ka naljakaid lauseid (vaata näiteid artikli lõpust).

Nii eesti-inglise kui ka inglise-eesti suunal hinnati kõige usaldusväärsemaks Balti ja Skandinaavia riikides tegutsev keeletehnoloogia ettevõtte Tilde tõlkesüsteem.

Tilde Eesti keeletehnoloog Martin Luts ütles, et seni on eesti keel olnud masintõlke jaoks kõva pähkel, kuna see on keeruline ja treeningmaterjali masinõppeks on võrreldes nn "suurte" keeltega vähe.

"Tänu tehisintellekti valdkonnast tuntud neurovõrkude-põhisele lähenemisele oleme saavutanud läbimurde masintõlke kvaliteedis. Meie edu WMT2018 konverentsil on selle otsene tulemus," rääkis Luts, kes jätkab tööd järgmise projekti kallal, milleks on eesti-soome-eesti masintõlkesüsteem.

"Võrreldes väljaõppinud tõlkija tõlkega saavutas Tilde masintõlkesüsteem 64,9% sarnasuse, samal ajal kui Google'i tulemuseks jäi 52,1%. Tasub arvesse võtta, et isegi kahe kõrgelt kvalifitseeritud inimtõlkija töö tulemuseks ei saa olla kaks täiesti ühesugust tõlget," lisas Tilde keeletehnoloog.

Mõlemal tõlkesuunal tuli teisele kohale Jaapanis loodud süsteem NICT.

"Lätlaste ja jaapanlaste kasuks rääkis see, et nad saavad kasutada suuri teadusarvutuste keskuseid. Samuti on neil väga targad ideed ja kõige uuemad meetodid, mis teevad nende eesti-inglise-eesti tõlke muu hulgas paremaks Google Translate'ist," kiitis Mark Fišel parimaid masintõlkijaid.

 "Õnneks on kõik süsteemid kirjeldatud avalikult jagatud teadusartiklites ning nende abil parandame ka Tartu Ülikoolis loodud tõlkemootorit Neurotõlge."

Klõpsa pildil ja testi tõlkeroboteid:

Tilde masintõlge. Autor: Ekraanitõmmis

TÜ Neurotõlge. Autor: Ekraanitõmmis

Võrdle, kuidas inimene ja masin on tõlkinud inglise keelt eesti keelde

  • Hea näide

Inglise keeles: Earlier this year, French journalists Franck Escudie and Basille Longchamp were deported from Papua for a "lack of coordination with related institutions" despite having been granted rare permission to film.

Inimtõlge: Selle aasta alguse poole saadeti Paapuast välja prantsuse ajakirjanikud Franck Escudie ja Basille Longchamp, kuna "nad ei jälginud asjakohaseid tavasid", kuigi neile oli antud haruldane filmimisluba.

Masintõlge: Selle aasta alguses deporteeriti Prantsuse ajakirjanikud Franck Escudie ja Basille Longchamp Pajalt "puudulike kooskõlastamise tõttu asjaomaste institutsioonidega", kuigi neile anti haruldane filmiluba.

  • Hea näide

Inglise keeles: Guglielmi said police received a call from the Grand Plaza building manager who had just received a cryptic tip that said something had occurred in apartment 1008.

Inimtõlge: Guglielmi ütles, et politsei sai telefonikõne Grand Plaza kortermaja haldurilt, kes oli saanud just krüptilise vihje, et korteris nr 1008 on midagi toimunud.

Masintõlge: Guglielmi ütles, et politsei sai kõne Grand Plaza ehitusjuhilt, kes oli äsja saanud krüptilise vihje, et midagi on juhtunud korteris 1008.

  • Hea näide

Inglise keeles: That is what happened in late February when someone mischievously gave the president a printed copy of an article from GotNews.com, the website of Internet provocateur Charles C. Johnson, which accused deputy chief of staff Katie Walsh of being 'the source behind a bunch of leaks' in the White House.

Inimtõlge: Nii juhtus ka veebruari lõpus, kui keegi andis kahjurõõmsalt presidendile prinditud kõõpis internetiprovokaatorile Charles C. Johnsonile kuuluva veebilehe GotNews.com artiklist, mis süüdistas personaliülema asetäitjat Katie Walshi selles, et ta olevat Valge Maja "mitmete infolekete allikas".

Masintõlge: Nii juhtuski veebruari lõpus, kui keegi andis ekslikult presidendile trükikoopia internetiprovocateur Charles C. Johnsoni kodulehe GotNews.com artiklist, mis süüdistas personaliülema asetäitja Katie Walshi selles, et ta on "Valges Majas hunniku lekke taga olev allikas".

  • Naljakas näide

Inglise keeles: When Bardina Degei cooks dinner, she doesn't use a stove.

Inimtõlge: Kui Bardina Degei õhtusööki valmistab, ei kasuta ta pliiti.

Masintõlge: Kui bardina Degei õunab jooke, ei kasuta ta ahju.

  • Naljakas näide

Inglise keeles: Guglielmi said police received a call from the Grand Plaza building manager who had just received a cryptic tip that said something had occurred in apartment 1008.

Inimtõlge: Guglielmi ütles, et politsei sai telefonikõne Grand Plaza kortermaja haldurilt, kes oli saanud just krüptilise vihje, et korteris nr 1008 on midagi toimunud.

Masintõlge: Guglielmi ütles, et egiptlast, 18 grusiini ja sama ehitusjuhilt, kes oli äsja saanud krüptilise vihje, mis ütles, et midagi on juhtunud korteris 1008.

  • Naljakas näide

Inglise keeles: At the time, former White House press secretary Sean Spicer defended the use of the helicopter for the event.

Inimtõlge: Valge Maja endine pressiesindaja Sean Spicer kaitses tol ajal helikopteri kasutamist üritusel.

Masintõlge: Toona kaitses endine Valge Maja pressisekretär Sean Spicer Evelin Ilvese kasutamist.

Toimetaja: Katre Tatrik, Tartu Ülikool



ERR kasutab oma veebilehtedel http küpsiseid. Kasutame küpsiseid, et meelde jätta kasutajate eelistused meie sisu lehitsemisel ning kohandada ERRi veebilehti kasutaja huvidele vastavaks. Kolmandad osapooled, nagu sotsiaalmeedia veebilehed, võivad samuti lisada küpsiseid kasutaja brauserisse, kui meie lehtedele on manustatud sisu otse sotsiaalmeediast. Kui jätkate ilma oma lehitsemise seadeid muutmata, tähendab see, et nõustute kõikide ERRi internetilehekülgede küpsiste seadetega.
Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: