Sõnamäng Alias arvutis - lõbusa ajaviite taga peitub huvitav keelematerjal
Liivaterad liivakellas nirisevad üha allapoole, aeg läheb ja te püüate meeleheitlikult selgitada partnerile üht mõistet, kasutades selleks erinevaid seoseid… Tuttav stsenaarium seltskonnamänguõhtutelt? Nüüdsest on igaühel võimalus mängida Aliast ka veebis, kus see aitab arvutitel meie emakeelt õppida.
TÜ arvutiteaduse instituudis loodud sõnade äraarvamise mäng Alias põhineb Eesti Wordnetil. “Teadaolevalt on eesti keeles raamatuna olemas vaid Andrus Saareste poolt Rootsis paguluses kokkupandud mõistepõhine sõnaraamat, kõik teised sõnastikud on sõnapõhised ja paberil esitatud tähestiku järjekorras,” rääkis keeletehnoloogia lektor Heili Orav.
Eesti Wordnet, kus sisaldub ligi 78 000 mõistet, on tänapäevane mõistepõhine arvutisõnastik, mis küll paberile ei jõua. Seda kasutatakse keeletehnoloogilistes rakendustes nagu näiteks info-otsingud, sõnatähenduste ühestamine, masintõlge, keeleõpe, keelemängud jne. Taolises süsteemis on mõisted omavahelistes seostes ning hierarhiates ja neid seoseid on ligi 50.
Wordnet on maailmas üha leviv keeletehnoloogiline ressurss ning oma mõistesõnastiku poole püüdlevad paljud keeled. Princetoni ülikoolis 1985. aastal psühholingvist George Milleri poolt alguse saanud projekti WordNet toetasid algaastail nii USA teadusfond kui ka riigi erinevad arendus- ning luureagentuurid ning tegu on vabavaraga. “Miller soovis panna inimese mentaalse leksikoni arvutisse. Inimene ju mõtleb läbi assotsiatsioonide – kui ütled “kass”, siis mõtleb inimene looma peale,” selgitas Orav wordneti põhimõtet.
Psühholingvistide pärusmaalt jõudis too mentaalne võrgusõnastik varsti aga keeletehnoloogide huviorbiidile. “Ka arvuti peab kuskilt saama semantilist informatsiooni. Näiteks sellist, et mets koosneb puudest ja mingi roomaja on näiteks madu – taolist liigitamise ja klassifitseerimise infot,” kirjeldas Orav. Inglisekeelse WordNeti praegune versioon sisaldab enam kui 150 000 tähenduslikult seotud sõna.
Enamus erinevate keelte wordnette on omakorda ühendatud keeltevahelise indeksiga, mis on kokkuleppeliselt ingliskeelne. Eesti keeletehnoloogia programmi koordineerija Kadri Vare sõnul on teoorias aga võimalik eesti keele kaudu läbi keeltevahelise indeksi jõuda näiteks jaapani, ungari või ükskõik, millise soovitud keeleni. “Kui meil on eestikeelne mõiste “kama”, mida inglise keelde ei annagi väga korralikult tõlkida, siis siin on see võimalik panna keeltevahelisse indeksisse teise suhtega, mis näitab, millest kama koosneb ja et see kuulub toiduainete alammõistete hulka,” kirjeldas Vare.
Wordnettidel on maailmas oma kogukond ja iga kahe aasta tagant korraldatav konverents toimus 2014. aastal ka Tartus. Seda keelevaramut on loomas ka lätlased ning Ungaris arendavad huvilised mansikeelset versiooni, venelastel on aga praeguseks viis erinevat wordnetti. Mitmete keelte wordnetid on kasutusel Google’i masintõlke programmi juures, samuti saab wordnet-tüüpi sõnastikku kasutada keeleõppes ja -mängudes.
Sellest on abi ka sõnatähenduste ühestamise puhul. “Kui tekstis on mitmetähenduslik sõna: näiteks “ajama”, millel võib olla 16 tähendust, siis wordneti abil fikseeritakse tekstis ära see konkreetne tähendus,” ütles Orav. Seda, kuidas on mõisted omavahel wordnetis seotud, saab visualiseerida erinevate vahenditega, näiteks WordTie’ga.
Aliase veebirakendus. (Foto: Ekraanitõmmis)
TÜ-s loodud Aliase ideed tutvustas informaatika assistent Sven Aller. Kuna wordnetis on olemas sünonüümid, antonüümid, alam- ja ülemmõisted, osa-terviku, põhjussuhted jms, siis võib Aliase mängu vihjete koostamise jätta arvuti hooleks. “Arvuti võtab wordneti andmebaasist mõiste ja vaatab, kas sellel on mingeid seoseid teiste mõistetega ning pakub neid. Kui arvatav sõna on näiteks “kass”, siis annab arvuti vihjeks näiteks “See on teatud liiki koduloom””, näitlikustas Aller. Sisuliselt nii mõtleb ka inimene mängu mängides.
Siiski pole veebipõhise Aliase puhul kasutatud kõiki mõisteid, kuna inimesed ei pruugi harvaesinevate mõistete peale tulla ja see muudaks mängimise liiga raskeks. Sestap pakub mäng välja kolm raskusastet. Lihtsama variandi puhul pakutakse kasutajale arvamiseks neid mõisteid, mis kuuluvad kirjakeele tuhande kõige sagedamini kasutatava sõna hulka. Keerulisemate variantide puhul kuuluvad küsitavad mõisted vastavalt 5000 ja 10 000 kõige sagedasema sõna hulka.
Aliast on praeguseks mängitud kaugelt üle tuhande korra, ent tegu ei ole vaid lustimiseks mõeldud rakendusega. Nimelt saab mängu logifailide järgi vaadata, millised mõisted on inimesele arusaamatud. “Kui ta vastab regulaarselt mingile vihjele valesti, siis järelikult ei kasuta inimene seda igapäevaselt selles kontekstis,” rääkis Aller. Selline tagasiside võimaldab parandada Eesti Wordneti ebatäpsusi ning sõnastikku aina paremaks lihvida.
Kuidas näevad aga TÜ keeletehnoloogid oma valdkonna seisu aastal 2016? Vare sõnul on olukord päris hea: “TÜ-s on lisaks Eesti Wordnetile loodud ka teisi olulisi keeleressursse ja –korpuseid, mis on keeletehnoloogilise tarkvara arendamiseks vajalikud. Programmidest töötab näiteks automaatne eesti keele vormianalüüs küllalt hästi, seda kasutab vajaliku komponendina ka siin kirjeldatud arvuti-Alias.“
Vabalt kättesaadav morfoloogiline analüsaator on Vare sõnul eesti keele puhul vältimatu analüüsietapp: “Spelleri ehk õigekirjakontrollijaga kohtume näiteks teksti toimetades.” Eesti-inglise-eesti masintõlget arendatakse muide aktiivselt nii TÜ-s kui ka Baltikumi suurimas keeletehnoloogiaettevõttes Tilde ning tihti on nende väljund parem kui Google’i automaattõlked. Samuti on olemas arendusfaasis võru keele masintõlge. Ka kõnetehnoloogia ehk kõnetuvastuse ja kõnesünteesi kvaliteet on heal tasemel ja need on võetud kasutusele mitmes lõppkasutajate rakendustes.”
Siinne emakeelt puudutav keeletehnoloogia tase on teadlaste hinnangul hea ja kuna seda toetab ka riiklik programm "Eesti keeletehnoloogia (2011-2017)“, siis on tegu kõigile kasutamiseks oleva vabavaraga. “See on Eesti riigi jaoks oluline, et eesti keel ka infoühiskonnas ja digiajastul säiliks,” tunnustab Vare programmi ellukutsujaid ja toetajaid.