Milline sõna 'käima' tõlge sobib minu lausesse? ({{commentsTotal}})

Milline sõna ’käima’ tõlge sobib minu lausesse?
Milline sõna ’käima’ tõlge sobib minu lausesse? Autor/allikas: Sõnapilv

Eesti keeles, nagu ka teistest keeltes, on sõnadel sageli mitu tähendust. Näiteks on „Eesti keele seletavas sõnaraamatus“ (EKSS) tegusõnal 'käima' 22 erinevat tähendust. Nende kahekümne ja rohkema tähenduse peale inimesed oma suhtluses harilikult ei mõtle, erinevate tähenduste valimine sobiva konteksti jaoks tuleb enamasti loomulikult. Kuid erinevalt inimesest on arvuti jaoks selline tähenduste mõistmine vägagi keeruline ülesanne, kirjutab Tartu ülikooli üldkeeleteaduse doktorant Kadri Vare.

Sõnatähenduste eristamise vajadus keeletehnoloogias

Sõnatähenduse ühestamine (ingl word sense disambiguation) on arvuti jaoks selline ülesanne, mille puhul määratakse sõnadele just see tähendus, mis tuleneb tema kontekstist.

Arvutilingvistikas ja rakenduslikumas keeletehnoloogias on vajalik sõnade tähenduste automaatne eristamine näiteks masintõlke jaoks, kus tõlgitud peab saama kõige täpsem tähendusvaste. Näiteks me mõistame, et lauses ’tal käib kodus Horisont’ või lauses ’see käib minu põhimõtete vastu’ on sõnal ’käima’ eri tähendus. Tegelikult on tajutavad tähenduserinevused ka näiteks lausetes nagu ’laps õpib käima’ ja ’laps käib koolis’.

Alustuseks peaks arvuti automaatselt kindlaks tegema, et esimeses lauses on ’käima’ kasutatud jalgsi liikumise kohta ja teises lauses mitte just tingimata jalgsi liikumise kohta. Seejärel on tõlkesõnastikku kasutades võimalik valida õige vaste – inglise keeles näiteks esimesse lausesesse ’to walk’ ja teise ’to go’ või ’to attend’.

Veel üheks keeletehnoloogia rakenduseks, kus vaheetapina märgendatud sõnatähendustest kasu võiks olla, on infootsing.

Oletame, et otsime internetist infot jalgpalli kui spordivahendi, mitte kui spordiala, kohta. Sellisel juhul oleks hea, kui otsingutulemustest oleks juba eemaldatud kõik jalgpallimänguga seotud otsingutulemused. Automaatselt ühestatud sõnatähendustest saaksid kasu näiteks ka kõnetöötlus, speller, miks mitte ka sotsiaalmeedia semantiline analüüs.

Kuigi sõnatähenduste automaatse määramisega on tegeletud juba eelmisest sajandist peale – Massachusettsi tehnoloogiainstituudi (MIT) küberekspert John C. Mallery on nimetatud selle ülesande lahendust ühtlasi ka tehisintellekti lahenduseks – ei saa seda kaugeltki lõplikult valminuks lugeda. Muidugi on arvutusvõimsuse suurenemine ja erinevate meetodite katsetamine tulemusi järjest parandanud, samuti on tekkinud võimalus kasutada suuri korpuseid ja (leksikaalseid) ressursse, kuid mõned pudelikaelad on jäänud siiski veel läbimata.


Tüüpiline keeletöötluse arhitektuur. (Allikas: Eesti keel digiajastul)

Kui täpselt sõnatähendusi eristada?

Sellele küsimusele on vastust otsitud juba pikalt. Adam Kilgariff kirjutab, et sõnatähenduste (automaatse) ühestamise probleemiks on see, et ei ole võimalik kindlaks määrata, kus lõpeb üks tähendus ja algab teine.

Kui keegi ’läheb kooli’, siis kas läheb ta hoonesse, kus toimub õppetöö või hoopis õppe- ja kasvatatusasutusse? Kui ’ehitajad parandavad klaase’, kas parandavad nad amorfset materjali või sellest tehtud eset?

Tõepoolest, kui eesti keele jaoks ühestatud sõnatähendustega korpust koostati, siis ei tajunud mitmete tähenduste vahesid ka inimesed-märgendajad. Kui juba inimene – mitteleksikograafilise taustaga inimene – tähenduste erinevust ei tunneta, siis kuidas peaks seda tegema automaatne süsteem? Ainult homonüümide, nagu ’palk’ , ’puur’ või ’viis’ eristamisest siiski ei piisa, nõnda võivad „tõlkes kaduma minna“ olulised tähendusnüansid.

Eesti keele puhul on siiani kasutatud Eesti Wordneti andmeid, mis on mõistepõhine arvutisõnastik, kus sõnade erinevad tähendused omavahel erinevate suhteseostega ühendatud. Ka teiste keelte puhul on wordnet-tüüpi leksikonid laialt kasutatavad. Valmiv doktoritöö püüabki Eesti Wordnetis olevate sõnade tähendusi automaatse sõnatähenduste programmi vajaduste jaoks struktureerida ja korrastada ning seeläbi panustada tulemusi juba keerukamate semantiliste ülesannete jaoks.

Osa sõna ’käima’ Eesti Wordneti päringutulemusest. (Allikas: Ekraanitõmmis)

Artikli autor on Tartu ülikooli doktorant Kadri Vare, kes osales edukalt Tartu ülikooli populaarteadusliku artikli konkursil.

Toimetaja: Katre Tatrik, Tartu ülikool



ERR kasutab oma veebilehtedel http küpsiseid. Kasutame küpsiseid, et meelde jätta kasutajate eelistused meie sisu lehitsemisel ning kohandada ERRi veebilehti kasutaja huvidele vastavaks. Kolmandad osapooled, nagu sotsiaalmeedia veebilehed, võivad samuti lisada küpsiseid kasutaja brauserisse, kui meie lehtedele on manustatud sisu otse sotsiaalmeediast. Kui jätkate ilma oma lehitsemise seadeid muutmata, tähendab see, et nõustute kõikide ERRi internetilehekülgede küpsiste seadetega.
Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: