Doktoritöö uuris tõlgitud ja algupärase teksti erinevusi

Taukari doktoritöö on esimene, mis käsitleb eesti keelde tõlgitud tekste nii suures ulatuses.
Taukari doktoritöö on esimene, mis käsitleb eesti keelde tõlgitud tekste nii suures ulatuses. Autor/allikas: LWYang/Flickr

Tallinna ülikooli doktorant Marju Taukar uuris algupäraste ning tõlgitud tekstide keelelisi sarnasusi ja erinevusi. Tööst selgus, et sõnade kasutamise sagedus erineb tõlkes ja algupärases tekstides nii, et arvuti suudab tuvastada, kas tegemist on tõlkega või algupärase tekstiga.

Taukari uurimismaterjaliks olid eestikeelsed ilukirjanduslikud tekstid. Enne tekstide analüüsimist uuris autor, kuidas inimesed üldse tõlgitud tekste tajuvad ning kuidas muudab tõlgitud teksti toimetamine.

Väitekirja eesmärk oli leida tõlkelisele keelele omaseid jooni. Varem on leitud, et tõlgitud tekstid võivad olla võrreldes lähtetekstiga, ja ka üldisemalt võrreldes algupäraste tekstidega, näiteks lihtsustatud ja eksplitseeritud

Viimane tähendab seda, et sihttekstis öeldakse selgemalt välja seda, mida lähtetekstis nii ilmselgelt kirja ei panda. Sellele viitab sagedaste ja üldisema tähendusega sõnade suurem osakaal. Samuti unikaalsete keelendite harvem kasutamine, kuna nendele puudub lähtekeeles vormiliselt sarnane vaste.

Marju Taukar uuris doktoritöös, kas algupäraste ja tõlgitud eestikeelsete tekstide keelekasutus erineb nii palju, et neid tekste saaks automaatselt klassifitseerida. Klassifitseerimine õnnestus hästi kõigi erineva pikkusega sõnaloendite põhjal.

"See tähendab, et sõnade kasutussagedused erinevad tõlgetes ja algupärastes tekstides sellisel määral, et arvuti suudab ära arvata, kas tegemist on tõlkega või algupärase tekstiga," selgitab töö autor.

Kõige üllatavam tulemus töös oligi Taukari sõnul see, et sõnaloendite põhjal saab nii täpselt tekste klassifitseerida. Lisaks tavalistele sõnaloenditele katsetas ta oma töös veel tähemärkide, sõnade, lemmade ja sõnaliikide pikemate jadadega. Vastupidisele mitmetele teistes keeltes tehtud samalaadsetele töödele, ei eristunud täpsuse poolest sõnade sagedusloendi kõige ülemine ots, kuhu kuuluvad pigem funktsioonisõnad (erinevad ase- ja sidesõnad), kinnitab Taukar.

Uurimusest tuli veel välja, et tõlgitud tekst ei muutu toimetamise tõttu nii palju, et avaldatud tõlkeid ei sobiks tõlkimise uurimiseks. Teisalt oli toimetamata ja toimetatud tekstide uurimus mahult võrreldes klassifitseerimisülesandega väga piiratud.

Toimetamine ja teksti muutumine toimetamise käigus vajab kindlasti veel lähemat uurimist. Seni on nii Eestis kui mujal peamiseks piiranguks selle teema arendamises tekstide kättesaadavus.

Peamiseks uurimismaterjaliks oli doktoritöös 13 miljoni sõnaline keelekorpus, mis koosneb tõlgitud tekstide alamkorpusest ja alguspäraste tekstide alamkorpusest. Tõlgitud tekstide korpus on koostatud Marju Taukari doktoritöö tarbeks. Algupärased tekstid on uurimistöös sellised, mis on kirjutatud kohe eesti keeles, ilma võõrkeelse lähtetekstita. Tõlgitud tekstid olid eesti keelde tõlgitud erinevatest lähtekeeltest.

Marju Taukari töö on esimene, mis käsitleb eesti keelde tõlgitud tekste nii suures ulatuses. Kuna eesti keeles ei ole tõlgitud tekstide keelekasutust kvantitatiivselt uuritud, võiks autori arvates töös leitu anda üsna palju mõtteainet ja edasisi suundi nii kvantitatiivsete kui ka kvalitatiivsete uurimisküsimustega tegelevatele keeleteadlastele.

Tallinna ülikooli humanitaarteaduste instituudi doktorandi Marju Taukari väitekirja "Algupäraste ja tõlgitud eestikeelsete tekstide sarnasused ja erinevused" avalik kaitsmine toimub 11. mail. Doktoritöö juhendajad on tõlketeoreetik, terminoloog Arvi Tavast ning Tartu Ülikooli vanemteadur Heiki-Jaan Kaalep. Oponendid on Eesti Keele Instituudi vanemteadur Heete Sahkai ning Tartu Ülikooli dotsent Terje Loogus.

Toimetaja: Indrek Ojamets

Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: