Eesti keele toeta virtuaalassistendid võivad keele säilimisele teha karuteene

Google Home'i nutikõlar.
Google Home'i nutikõlar. Autor/allikas: STRINGER/REUTERS/SCANPIX

Google avalikustas hiljuti eestikeelse kõnetuvastuse, mis Eesti keeletehnoloogide sõnul aitab küll kaasa eesti keele alahoidmisele, kuid tõstab esile uue võimaliku probleemi. Kui Eestiski muutuvad populaarseks virtuaalsed assistendid, mis nende hinnangul lähiajal eesti keeles rääkima ei hakka, siis hakkavad lapsed nendega rääkima inglise keeles, mis võib eesti keele säilimisele teha karuteene.

TalTechi tarkvarateaduse instituudi vanemteadur Tanel Alumäe rääkis, et kui ta käis umbes seitse aastat tagasi ühel konverentsil, kus kõneles Google'i kõnetuvastustiimi üks juhte, kes näitas Euroopa kaarti, millel oli näidatud, milliseid keeli Google plaanib kõnetuvastustoega katta, siis Eesti oli seal üksik valge laik. Google'i põhjendus tollal oli, et nende eesmärk on teha kõnetuvastus kõikidele keeltele, millel on vähemalt miljon kõnelejat.

"Nüüd on aeg nii palju mööda läinud ja nad on jõudnud ka nende keelteni, millel on natuke vähem kui miljon kasutajat, aga mis on siiski mõnes mõttes olulised," selgitas Alumäe, kes usub, et eesti keele toe lisamine on Google'ile pigem mainekujundusprojekt.

"Eesmärk on näidata, et Google on mitmekeelse keeletehnoloogilise toe alal globaalne liider ja kui neil on nüüd eesti keele tugi olemas, siis nad saavad ka näidata, et neil on kõik Euroopa riigikeeled kõnetuvastustoega kaetud," märkis ta. Teine põhjus, miks Google eestikeelse kõnetuvastustoe välja töötas, on tema hinnangul soov suurendada inimeste armastust Google'i vastu.

"Isegi kui konkreetselt see kõnetuvastustehnoloogia väljaarendamine ise päris ära ei tasu, siis inimesed näevad, et Google hoolib neist ja see ehk hoiab neid muude Google'i teenuste küljes." Seda, kas see võiks end Google'i jaoks mitte ära tasuda, on Alumäe sõnul aga keeruline hinnata.

Eesti Keele Instituudi kõneuurimise ja kõnetehnoloogia osakonna juhataja-vanemteadur Meelis Mihkla usub, et Google'i püüdluste taga pole ainult majanduslikud ambitsioonid. "Eesti keel on oma miljonilise kõnelejaskonnaga suhteliselt väike keel, millele loodud keeletehnoloogilised rakendused pole paraku tasuvad. Seega on Google'i püüdlustes ülekaalus pigem altruistlik soov."

"Eks nad hindavad kulusid-tulusid ja loovad ka väiksema kõnelejaskonnaga keeltele vahendeid, kui see ei ole liiga ressursimahukas. See on igati tänuväärne," lisas Eesti Keele Instituudi kõneuurimise ja kõnetehnoloogia osakonna vanemteadur Liisi Piits.

Masintõlke rakendus Google'i tõlge on eesti keele toega juba neli aastat. Google'i eestikeelne kõnesüntees tuli kasutusele enam kui aasta tagasi. Sellest aastast on kasutatav Google'i eestikeelne kõnetuvastus. "Google väärib suurt austust, et on viinud eesti keele Android-keskkonna nutiseadmetes maailma umbes 50 tehnoloogiliselt kõige arenenuma keele hulka," märkis Meelis Mihkla.

Google'i kõnetuvastus jääb kohalikule alla

Alumäe, kes on Google'i keeletehnoloogilise lähenemisega lähemalt tuttav, rääkis, et Google'i lähenemine on tehniliselt ja algoritmiliselt väga sarnane sellele, mida nad TalTechi küberneetika instituudi foneetika- ja kõnetehnoloogia laboris teevad – peamiselt põhineb kõik masinõppel ja sügavatel närvivõrkudel, kuid erinev on treeningmaterjal.

"Meie kasutame rohkem poolspontaanset materjali eri allikatest. Kui meie treenime oma mudeleid käsitsi transkribeeritud raadiosaadete, telefoniintervjuude, loengu- ja koosolekusalvestustega, siis nemad kasutasid lähenemist, kus kasutajale anti ette tekstid ja paluti neid dikteerida. Need tekstid sisaldasid tüüpilisi väljendeid või lauseid, mida Eestis Google'i kaudu otsitakse vms," selgitas Alumäe.

Ta usub, et just seetõttu töötab nende kõnetuvastus poolspontaansetes situatsioonides praegu ka pisut paremini kui Google'i oma. "Näiteks, kui me üritaksime seda meie intervjuud transkribeerida, siis ma olen kindel, et meie kõnetuvastus annab parema tulemuse kui Google'i oma. Aga eks nad jõuavad üsna pea järele."

Liisi Piits märkis, et kuna Google tegeleb nii paljude erinevate keeltega, siis kasutavad nad meetodeid, mis enamasti nende keelte tundmist ei vaja. "Eesti Keele Instituudis on aga siiani olnud tekst-kõne sünteesis tähtsal kohal tekstianalüüs. Näiteks, eesti keele morfoloogilise analüüsiga püütakse määrata, kas tegu on teise- või kolmandavältelise sõnavormiga, kas sõna peaks palataliseerima jms."

Eesti keeletehnoloogidega koostööd ei tehtud

Eestikeelse kõnetuvastustoe väljatöötamisel Google Eesti vastava valdkonna kohalike spetsialistidega koostööd ei teinud. "Nende protsess, kuidas uuele keelele kõnetuvastustuge teha, on nii välja arendatud konveier, et see töötab väga hästi ja midagi eesti keele puhul teisiti teha on pigem kallis võrreldes sellega, et seda ise nullist teha."

Mihkla tõdes, et võimaliku, kuid vähetõenäolise koostöö initsiaator saab olla vaid Google, kuid lisas, et teisest küljest on konkurents arendustöös edasiviiv jõud. "Google'i eestikeelsele süntesaatorile lisaks on ka EKI kõnesüntesaator Androidi häälrakendustes kasutatav. Seega tarbijad peavad ise otsustama, kumba sünteeshäält nad eelistavad."

Ta lisas, et pealegi töötavad Google'i eestikeelse keeletehnoloogia vahendid vaid nende enda Androidi operatsioonisüsteemis ja rakendustes. "Windowsi- ja MacOSXi-põhised arvutid ning kodumasinad eestikeelset kõnet ei mõista ja ilma meie abita eesti keeles ka ei räägiks." Windowsi häälrakenduste jaoks sobiv EKI kõnesüntesaatori liides on allalaaditav ja vastav MacOSX tekst-kõne teisendaja Mihkla sõnul praegu loomisel.

Võimalus mõõtu võtta

Kuigi on raske öelda, mida Google'i eestikeelne kõnetuvastustugi Eesti vastava valdkonna teadus- ja arendustöö jaoks tähendab, loob see Alumäe hinnangul eeldused näiteks selleks, et keeleteadlastele tekib varsti uus ja ehk ka parem võimalus kõnematerjalide transkribeerimiseks, mis omakorda aitaks luua korpuseid ja teha korpusealast uurimistööd. Tavakasutajatele võib tekkida võimalus automaatselt lisada eestikeelsetele Youtube'i videotele subtiitreid, mis on inglise ja mitmete teiste keelte puhul olemas.

"Meie jaoks, kes me tegeleme eesti keele kõnetuvastusega, on see huvitav seepärast, et me saame end Google'iga võrrelda. Aga mis puudutab eesti keele tehnoloogiat üldisemalt, siis on Google'i kõnetuvastus mõeldud üldiseks, igapäevaseks kõneks," sõnas Alumäe. Ta märkis, et sageli on vajadus just spetsiifiliste kõnetehnoloogiliste arendustööde järele, nagu kõnetuvastus meditsiinivaldkonnale.

"Kui me võtaksime Google'i kõnetuvastuse ja püüaksime tuvastada sellega mingit meditsiinivaldkonna kõnet, siis oleks vigade protsent ilmselt väga suur. Selleks, et kõnetuvastuse mudeleid ja süsteeme kindlale valdkonnale kohandada, on vaja kompetentsi, mis oskab sellist spetsiifilist arendustööd teha. Google'i juurde selliste nišiprobleemidega ei minda," selgitas Alumäe.

Mihkla märkis, et eestikeelse kõnesünteesi arendajatele annab Google'i kõnetuvastus ühe lisavõimaluse testida erinevatel meetoditel loodud kõnesüntesaatoreid.

"Kõne-tekst teisendajaga saab avastada sünteeshäältes leiduvaid hääldusvigu." Ta tõi näiteks, et üks sünteeshääl kippus komale järgnevat sidesõna "nagu" süstemaatiliselt hääldama sõnaks "nägu". "Kuulmise põhjal me ise neid hääldusvigu tähele ei pannud, kuna me tajusime seda, mis seal konteksti põhjal pidi olema. Automaatne tuvastaja transkribeerib aga teksti meie kuulmistajust objektiivsemalt."

Piitsa sõnul on raske öelda, mida Google'i loodud kõnetuvastus kohalikele spetsialistidele peale võrdlusvõimaluse pakub. "Küll aga on neil oluline roll kõnetehnoloogiavõõra tavakasutaja harimisel. Ilmselt ei tule igaüks selle peale, et kõnetuvastuseks mobiilile rakendus Kõnele alla laadida, aga ehk märkab mõni klaviatuuri kõrval mikrofoni märki ja õpib nii kõnetuvastust kasutama."

Kuid Alumäe nõustub, et Google annab eestikeelse kõnetuvastustoega eesti keele alalhoidmisesse oma panuse. "See on äärmiselt oluline, et eesti keele tugi oleks ka moodsate tehnoloogiate näol olemas. Kui meil 1980.–90. aastatel räägiti sellest, et Microsoft Office võiks olla eestikeelne ja siis mingi hetk tuli eestikeelne Windows, ei olnud inimesed sellega harjunud. Aga nüüd paljud ikkagi kasutavad seda."

Liisi Piits tunnistas samuti, et Google'i kõnetuvastus aitab eesti keele alalhoidmisele kaasa. "Seda eelkõige seetõttu, et erinevad Google'i tooted on väga populaarsed ja eestikeelse toeta oleks kasutaja aina enam inglise keele mõjuväljas. Tehnoloogia areneb väga kiiresti ja ilma eestikeelse keeletehnoloogiata suhtleksime õige pea kodumasinatega inglise keeles."

Alexa ja Siri võivad eesti keelele teha karuteene

Piitsa sõnul on oluline, et ka virtuaalsed assistendid, nagu Amazon Alexa, Google Home või Apple'i Siri oskaksid eesti keelt. Alumäe sõnul on tal virtuaalsete assistentide – USA-s väga populaarsete nutikõlaritega, mida kasutatakse kõne abil ja mis annavad kasutajale ka kõnepõhiseid vastuseid – seoses üks suur mure.

"USA-s on need kodus olemas vähemalt ühel neljandikul inimestel ja Hiinas samuti. Nende virtuaalsete assistentidega on asi palju keerulisem. Kuigi Google'il on olemas eestikeelne kõnetuvastus, siis ei tähenda see seda, et neil on olemas tehnoloogia, mis saab eesti keelest aru," selgitas Alumäe.

"Kõnetuvastus on ikkagi ainult kõne muutmine tekstiks. Selleks, et need nutikõlarid oskaksid eesti keeles suhelda, on vaja teha kõvasti rohkem arendustööd kui puhtalt see kõnetuvastustugi ja ma julgen öelda, et seda nii pea eesti keeles ei tule. Kui just selles vallas ei toimu mingit tehnoloogilist murrangut," sõnas ta.

"Nii et see on tegelikult murekoht, sest USA-s on sellised nutikõlarid populaarsed eriti just laste hulgas ja kui need muutuvad ka Eestis populaarseks ning lapsed peavad hakkama nutikõlaritega inglise keeles rääkima, siis on see olukord kurb," lisas ta.

Alumäe selgitas, et sisuliselt oleks vaja, et sellega tegeleksid aasta aega umbes sada inseneri. "Nende nutikõlaritega on ka see probleem, et nende sisemine struktuur on äärmiselt suletud. Eesti keeletehnoloogidel puudub igasugune võimalus sinna eestikeelne tugi lisada. Seda saavad teha ikkagi ainult nende omad töötajad." Ta lisas, et ilmselt on nende suletuna hoidmise taga äriline huvi.

Liisi Piitsa sõnul oleks selleks, et erinevad virtuaalsed assistendid eesti keeles suhelda oskaksid, vaja kõnetuvastuse ja kõnesünteesi kõrval arendada süntaktilist analüüsi ja dialoogisüsteeme.

Taltechi fookus mürasel kõnel ja ingliskeelsetel väljenditel

TalTechi keeletehnoloogide lähiaastate tööalastest eesmärkidest rääkides märkis Alumäe, et nemad tegelevad Eestis endiselt sellega, et parandada kõnetuvastuse üldist kvaliteeti. "Praegu on meie üks fookus mürane kõne. Me tahame parandada tüüpiliste koosolekusalvestuste, ka viletsa diktofoniga tehtud intervjuusalvestuste tuvastamise kvaliteeti." Ta lisas, et juba praegu kasutavad nende veebipõhist kõnetuvastusteenust väga paljud ajakirjanikud, ka ERR-ist.

Teine asi, mida nad tahaksid järgmiste aastate jooksul parandada, on seotud ingliskeelsete väljendite tuvastamisega eestikeelsest tekstist. Praegu nende kõnetuvastussüsteem ingliskeelseid väljendeid korralikult ei tuvasta, vaid tuvastab nende asemel akustiliselt sarnase eestikeelse sõna või sõnapaari.

"See on just oluline, et loengusalvestusi või konverentsikõnesid kuskilt tehnoloogiakonverentsilt saaks paremini tuvastada, sest seal on situatsioon paratamatult selline, et neid väljendeid kasutatakse palju ja samas on need sellest jutust arusaamiseks ka äärmiselt olulised. Kui nende asemel on mingi segapudru, siis ei saa midagi aru."

Alumäe tõdes ka, et vähene treeningandmete hulk on püsiv probleem. "Kuna kõnetuvastus põhineb masinõppel, siis on oluline, et treeningandmeid oleks võimalikult palju. Treeningandmed on kõnetuvastuse puhul lihtsalt käsitsi transkribeeritud kõnesalvestused ja nende salvestuste transkribeerimine on kallis ning võtab aega. Meie kasutame eesti keele puhul praegu umbes 270 tundi kõnet, aga Google kasutab inglise keele puhul ilmselt paarikümmet tuhandet tundi või isegi rohkem."

EKI loodab kõnesünteesi rakendusalasid laiendada

Mihkla sõnul on Eesti Keele Instituudi lähiaastate põhiülesanded seotud kõne uurimise ning eestikeelse kõnesünteesi arendamise ja selle rakendustega. "Ühelt poolt on plaanis kõne uurimisel saadud teavet kasutada eestikeelse kõnesünteesi kvaliteedi parandamisel. Teisalt on eestikeelne kõnesüntees viimastel aastatel välja kasvanud vaid erivajadustega inimestele mõeldud abivahendi staatusest ja leidnud laialdast kasutust tavainimeste igapäevaelus."

Eestikeelset kõnesünteesi kasutatakse näiteks subtiitrite ja sõnastike helindamiseks, heliraamatute loomiseks tekstide helindaja Vox populi keskkonnas, Elisa Raamatu iselugejas, Postimehe ning Eesti Ekspressi artiklite ettelugemisel ja alkoroboti Abot kõnelema panemisel.

Kvaliteetsemate sünteeshäälte abil on on Eesti Keele Instituudi keeletehnoloogidel plaanis jõuda järjest uute rakendusteni – Mihkla sõnul on neil muu hulgas kavas luua veebilehtedel esitatud info kuulamisvõimaluse jaoks tööriist ja nutikas abimees tarbijale ehk nn kõnelev luup, mille abil saab selvepoodides kaupa valides toodete kohta infot suulises kõnes.

Mihkla nentis, et kõnesünteesi vallas on viimastel aastatel kogu maailmas olnud areng väga kiire – järjest tuleb juurde uusi masinõppe tehnikaid ja kõnesünteesi meetodeid. "Seetõttu annab tegijate vähesus ka tunda, eriti napib noori tarkvaraarendajaid," tõdes ta.

Toimetaja: Merit Maarits

Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: