Artikkel on rohkem kui viis aastat vana ja kuulub arhiivi, mida ERR ei uuenda.

Milline sõna 'käima' tõlge sobib minu lausesse?

Eesti keeles, nagu ka teistest keeltes, on sõnadel sageli mitu tähendust. Näiteks on „Eesti keele seletavas sõnaraamatus“ (EKSS) tegusõnal 'käima' 22 erinevat tähendust. Nende kahekümne ja rohkema tähenduse peale inimesed oma suhtluses harilikult ei mõtle, erinevate tähenduste valimine sobiva konteksti jaoks tuleb enamasti loomulikult. Kuid erinevalt inimesest on arvuti jaoks selline tähenduste mõistmine vägagi keeruline ülesanne, kirjutab Tartu ülikooli üldkeeleteaduse doktorant Kadri Vare.

Sõnatähenduste eristamise vajadus keeletehnoloogias

Sõnatähenduse ühestamine (ingl word sense disambiguation) on arvuti jaoks selline ülesanne, mille puhul määratakse sõnadele just see tähendus, mis tuleneb tema kontekstist.

Arvutilingvistikas ja rakenduslikumas keeletehnoloogias on vajalik sõnade tähenduste automaatne eristamine näiteks masintõlke jaoks, kus tõlgitud peab saama kõige täpsem tähendusvaste. Näiteks me mõistame, et lauses ’tal käib kodus Horisont’ või lauses ’see käib minu põhimõtete vastu’ on sõnal ’käima’ eri tähendus. Tegelikult on tajutavad tähenduserinevused ka näiteks lausetes nagu ’laps õpib käima’ ja ’laps käib koolis’.

Alustuseks peaks arvuti automaatselt kindlaks tegema, et esimeses lauses on ’käima’ kasutatud jalgsi liikumise kohta ja teises lauses mitte just tingimata jalgsi liikumise kohta. Seejärel on tõlkesõnastikku kasutades võimalik valida õige vaste – inglise keeles näiteks esimesse lausesesse ’to walk’ ja teise ’to go’ või ’to attend’.

Veel üheks keeletehnoloogia rakenduseks, kus vaheetapina märgendatud sõnatähendustest kasu võiks olla, on infootsing.

Oletame, et otsime internetist infot jalgpalli kui spordivahendi, mitte kui spordiala, kohta. Sellisel juhul oleks hea, kui otsingutulemustest oleks juba eemaldatud kõik jalgpallimänguga seotud otsingutulemused. Automaatselt ühestatud sõnatähendustest saaksid kasu näiteks ka kõnetöötlus, speller, miks mitte ka sotsiaalmeedia semantiline analüüs.

Kuigi sõnatähenduste automaatse määramisega on tegeletud juba eelmisest sajandist peale – Massachusettsi tehnoloogiainstituudi (MIT) küberekspert John C. Mallery on nimetatud selle ülesande lahendust ühtlasi ka tehisintellekti lahenduseks – ei saa seda kaugeltki lõplikult valminuks lugeda. Muidugi on arvutusvõimsuse suurenemine ja erinevate meetodite katsetamine tulemusi järjest parandanud, samuti on tekkinud võimalus kasutada suuri korpuseid ja (leksikaalseid) ressursse, kuid mõned pudelikaelad on jäänud siiski veel läbimata.

Tüüpiline keeletöötluse arhitektuur. (Allikas: Eesti keel digiajastul)

Kui täpselt sõnatähendusi eristada?

Sellele küsimusele on vastust otsitud juba pikalt. Adam Kilgariff kirjutab, et sõnatähenduste (automaatse) ühestamise probleemiks on see, et ei ole võimalik kindlaks määrata, kus lõpeb üks tähendus ja algab teine.

Kui keegi ’läheb kooli’, siis kas läheb ta hoonesse, kus toimub õppetöö või hoopis õppe- ja kasvatatusasutusse? Kui ’ehitajad parandavad klaase’, kas parandavad nad amorfset materjali või sellest tehtud eset?

Tõepoolest, kui eesti keele jaoks ühestatud sõnatähendustega korpust koostati, siis ei tajunud mitmete tähenduste vahesid ka inimesed-märgendajad. Kui juba inimene – mitteleksikograafilise taustaga inimene – tähenduste erinevust ei tunneta, siis kuidas peaks seda tegema automaatne süsteem? Ainult homonüümide, nagu ’palk’ , ’puur’ või ’viis’ eristamisest siiski ei piisa, nõnda võivad „tõlkes kaduma minna“ olulised tähendusnüansid.

Eesti keele puhul on siiani kasutatud Eesti Wordneti andmeid, mis on mõistepõhine arvutisõnastik, kus sõnade erinevad tähendused omavahel erinevate suhteseostega ühendatud. Ka teiste keelte puhul on wordnet-tüüpi leksikonid laialt kasutatavad. Valmiv doktoritöö püüabki Eesti Wordnetis olevate sõnade tähendusi automaatse sõnatähenduste programmi vajaduste jaoks struktureerida ja korrastada ning seeläbi panustada tulemusi juba keerukamate semantiliste ülesannete jaoks.

Osa sõna ’käima’ Eesti Wordneti päringutulemusest. (Allikas: Ekraanitõmmis)

Artikli autor on Tartu ülikooli doktorant Kadri Vare, kes osales edukalt Tartu ülikooli populaarteadusliku artikli konkursil.

Toimetaja: Katre Tatrik, Tartu ülikool

Milline sõna 'käima' tõlge sobib minu lausesse?

Lugeja küsib: kas lagunevates hammastes saab süüdistada kehvi geene?

Ohust teavitava sõnumi usaldusväärsust langetab isegi puuduv õ

Ülereguleeritud linnaruum võib vaigistada rahvusvähemuste hääled

Uuring: EL-i põllumajandustoetused lähevad risti selle kliimaeesmärkidega

Doktoritöö: vastutajaintervjuu jõuvõtted teevad eksperdiintervjuus karuteene

Uuring: Maa peegeldusvõime langus võib kiirendada üleilmset soojenemist

Eelmisel aastal hävis iga minutiga kümne jalgpalliväljaku jagu metsa

Globaalmuutuste akadeemiku valimised: kes on Jaanus Terasmaa?

Globaalmuutuste akadeemiku valimised: kes on Rainer Kattel?

Globaalmuutuste akadeemiku valimised: kes on Hans Orru?

lugejate lemmik

Test: tunne ära valeuudis

Ohust teavitava sõnumi usaldusväärsust langetab isegi puuduv õ

Rohepöörde-skeptiline rahvaraamat ajas teadlased tülli

Matemaatik: tunnis ette antud arvutusülesannete lahendamine on ajaraisk

"Teise mätta otsast": Kant aitab mõtestada, miks on riiki vaja

Laste kriitikameelt pärsib usk meediaplatvormide aususesse

Antiigiteadlane: antiikkultuur aitab luua elujõulisemaid väljendusvorme

hüpe teise maailma

Mereinstituudi kalateadlased: euroopa angerja tulevikust – ausalt ja objektiivselt

Meediastumine kui vankumatu vedur: mis peitub Tinderi tagatoas?

Lõppes üks maailma võimsamaid ilmastikunähtusi

Kahemõõtmeliste materjalide maailmas leidub nüüd kulda

Kiirekasvulised hübriidhaavad puhastavad mulda raskmetallidest

Tõnu Talvi: linnupesa leides tuleks sellest kohe eemalduda

Tähetedevahelises tolmus võib peptiide hõlpsasti tekkida

Doktoritöö näitab, kuidas elukeskkond võib rahvuslikku kuuluvust muuta

Kui hea on Eestis elada ehk mida räägivad Exceli tabelid?

Professori soovitused vanematele sotsiaalmeedias lastepiltide postitamiseks

Mis on majanduslik vägivald ja miks seda Eestis ei karistata?

Lindude pereelus peitub võti inimeste abielukriiside mõistmiseks

Teadlane: maailm ei ole aja jooksul muutunud vägivaldseks ja ebaturvaliseks

Hüvasti, suveaeg! Miks seda nüüd tarvis oligi?

Suur MeeMa uuring: Eestis on ühiskonnarühmade eristumine süvenenud

Uuring: Eesti naistippjuhid panevad karjääriedu pigem hea õnne kui enda tööpanuse arvele

Hirmust ja eelarvamustest immigratsiooniuurija pilgu läbi

Arutelu orientalistidega: kas enesetaputerroristil on tagasiteed?

Etnobotaanik: looduslike taimede kasutus tuleb n-ö emapiimaga kätte saada