Venivast koosolekust säästab tulevikus kõnetöötlus
Kui minevikus tagas keele elujõu võimalus trükisõna levitada, siis tänapäeval vajab keel ka tehnoloogilist tuge. Tallinna Tehnikaülikooli teadlased arendavadki eesti keelele nii kõnetuvastust, automaatset sisukokkuvõtjat kui ka näiteks kõnelejatuvastust.
"Eesti keel on kõnetöötluse vaatepunktist täiesti keskmine keel. Hiljuti tuli üks uuring välja, mis uuris muu hulgas kõnetuvastusvigade arvu eri keeltes. Sealt selgus, et ta ei ole väga keeruline ega ka väga lihtne," ütleb Tallinna Tehnikaülikooli kaasprofessor Tanel Alumäe.
Koos kolleegidega töötab Alumäe välja erinevaid eesti keelele mõeldud tehnoloogilisi lahendusi. Nii on neil olemas juba suulise eesti keele kõnetuvastus ja arendamisel programm, mis teeks tuvastatud kõne põhjal vestlustest lühikokkuvõtteid. Samuti käib töö tuntud kõnelejate ja erinevate keelte tuvastusega ning tarkvaraga, mis suudaks inimese küsimusele vastuse anda mitme allika põhjal.
Tunnise koosoleku viis tuumakat minutit
"Kokkuvõtete genereerimise süsteemi juures ma toon alati näite, et mina olen siis rahul, kui selle abil saab teha korteriühistu koosolekust protokolli," ütleb Tanel Alumäe. Ta täpsustab, et mistahes koosolekul räägitakse olulise kõrval palju ebaolulist, hõigutakse läbisegi ja tihtilugu käib jutt mitmes keeles.
"Nendest koosolekutest on äärmiselt tüütu protokolle kirjutada, aga keegi vaene assistent peab seda tegema. Teiseks on neid pärast ka äärmiselt tüütu lugeda," osutab Alumäe. Tema töörühma üks eesmärk ongi välja arendada tarkvara, mis võtaks inimestevahelise vestluse viis korda lühemalt ja sisutihedalt kokku. Ideaalis oleks seda kokkuvõtet ka lihtne lugeda.
Praegu on Alumäe sõnul murekoht, kust saada masinõppel põhinevale programmile treeningandmeid. "Programmil on õppimiseks vaja selliseid andmepaare, kus on olemas algdokument ja sellest inimannotaatori tehtud kokkuvõte," seletab ta. Kuna vabalt kätte saadavaid koosolekulindistusi või eravestlusi võtta pole, õpetab töörühm programmi praegu eeskätt Eesti Rahvusringhäälingu vestlussaadete transkriptsioonide ja kokkuvõtete põhjal.
Võimalus tele- või raadiosaateid kokku võtta olekski Alumäe sõnul veel üks programmi rakendusi. Kokkuvõttes säiliks algse vestluse struktuur, kus sõna saavad nii külaline kui ka saatejuht. "Kui inimesel jäi eile saade vaatamata, aga ta tahab teada, mis seal juhtus, siis ta saab selle ühe minutiga ära tarbida. Midagi läheb muidugi kaduma, aga mõned mõtted saab ikkagi kätte," tõdeb ta.
Kõne on juba tuvastatav
Teine Tanel Alumäe ja kolleegide arendatud keeletehnoloogiline lahendus on eesti keele kõnetuvastus. See saab kaasprofessori sõnul kvaliteetselt salvestatud ja korraliku hääldusega kõnest juba väga hästi aru. "Eetrist tulnud uudised nagu "Aktuaalne kaamera" või "Päevakaja" on kõnetuvastuse jaoks kõige lihtsam materjal üldse," märgib ta. Nagu kokkuvõtteprogrammi, treeniti ka kõnetuvastust paljuski just vestlussaadetega.
Praegu jääb kõnetuvastus veel hätta näiteks võõrnimedega või mõnes muus keeles tsitaatsõnadega. Tuvastust raskendavad ka kehv helikvaliteet ja väga spontaanne suuline kõne. "Kui on koosolek, mis on salvestatud ühe telefoniga suure laua keskel, ja laua ümber on viis inimest, kes mõmisevad või kohati räägivad üksteise peale, siis sellised asjad on keerulised. Seal tuleb kõvasti vigu, eriti kui räägitakse samal ajal," seletab Alumäe.
Kõnetuvastusse üles laetud materjale töörühm tema sõnul üldiselt ei kasuta. Samas on neil olemas väike testvalim, millega kõnetuvastuse vigu leida ja mõõta. "Seal on kümmekond juhuslikult valitud üleslaetud faili, mis meil on käsitsi ära transkribeeritud ning mille põhjal me mõõdame kogu aeg oma süsteemi kvaliteeti, et aru saada, kas liigume õiges suunas," põhjendab ta.
Muud nutikad lahendused
Kõnetuvastuse ja kokkuvõtteprogrammi kõrval on Tanel Alumäe töörühmal töös teisigi lahendusi. Näiteks õpetasid nad juba umbes viie aasta eest välja mudeli, mis tunneks ära hoopis kõneleja. "Meie kõnetuvastuse tehnoloogia üritab tuvastada väga paljude avaliku elu tegelaste isikut üksnes hääle põhjal," kirjeldab Alumäe.
Lisaks on töörühma üks eesmärk teha automaatselt kindlaks, millist keelt parasjagu kõneldakse. Kaasprofessori sõnul on see vajalik, sest vahel juhtub, et pika eestikeelse jutu sees räägib keegi ka mõne lõigu näiteks inglise või vene keeles. "Seda ei hakata tuvastama eesti keele tuvastuse mudeliga, sest siis tuleb masinast välja jama. Peaksime lihtsalt selle lõigu vahele jätma," põhjendab ta vajadust eraldi mudeli järele.
Kõneldava keele kindlaks tegemise mudelil on Alumäe sõnul praegu aga omaette komistuskivi: kõneleja aktsent. Teisisõnu, kui eestlane kõneleb eesti keelt, saab masin sellest 99-protsendilise täpsusega aru. "Kui mina nüüd räägin saksa keelt, mida ma oskan suhteliselt hästi, siis ta pigem ütleb, et see on eesti keel või üldse baski keel ehk tekib täielik segadus,"selgitab kaasprofessor. Siin oleks tema sõnul abi sellest, kui masin ei määraks keelt mõne üksiku inimese suust kõlanud hääliku põhjal, vaid otsiks tekstist kindlasse keelde kuuluvaid sõnu.
Kõnetuvastuse parandamise kõrval tahaks Alumäe jõuda lahenduseni, mis teeks küsimusele orienteeritud kokkuvõtte mitmest dokumendist. "Mind huvitab näiteks, millal võib politseiauto parkida kõnniteel. Kui ma selle küsimuse Google'isse kirjutan, saan vastuseks mitu erinevat artiklit ja seadust," toob ta näite. Ideaalis võiks tulevikulahendus kõik need seadused läbi vaadata ja koostada nende erinevate lõikude põhjal konkreetsele küsimusele lühikese vastuse.
Kõik need lahendused on Alumäe sõnul eesti keele tulevikule mõeldes samavõrd elutähtsad, nagu sajandite eest olid kirjakeel ja trükipress. "Kui keelel pole tänapäeval sellist keeletehnoloogilist tuge, siis on karta, et ta lihtsalt hääbub. Me harjumegi kasutama inglise keelt või muid keeli. Alguses teeme seda arvutiga, aga pärast ka üksteisega," sõnab ta.
Tanel Alumäe ja kolleegid kirjutavad oma tegemistest ajakirjas Baltic Journal of Modern Computing.