Google'i intelligentne häälassistent ei hakka niipea eesti keeles tööle
Eile kirjutas tehnoloogiauudiste väljaanne Geenius, et Google asus oma tehismõistusele eesti keelt õpetama. Eestis kõnetehnoloogiaga tegelev TTÜ vanemteadur Tanel Alumäe selgitab, kuidas seda tehakse ja kui kaua võib minna, et Google'i häälassistenti saaks kõnetada ka eesti keeles.
„Aastal 2008. käisin konverentsil, kus esines Google'i kõnetuvastusüksuse pealik ja rääkis, milliseid keeli nad kavatsevad hakata arendama. Ta näitas kaarti ja seal oli Eesti kohal valge laik. Neil oli plaanis katta kõik keeled, millel on vähemalt miljon emakeelena kõnelejat, eesti keelel vist päris nii palju ei olnud. Aga siiski viimastel aastatel on nad oma arendusega ka Eestini jõudmas,“ kirjeldas Tanel Alumäe, Tallinna tehnikaülikooli foneetika ja kõnetehnoloogia laboratooriumi vanemteadur.
Kuidas see Google'i kõnetuvastus töötab ja kui keeruline seda teha on? Kõnetuvastus ehk lihtsalt kõnest teksti tegemine ei ole eesti keele puhul kuigi keeruline ning selleks pole isegi tarvis keelt põhjalikult tunda, selgitas Alumäe.
Google laseb 1000 inimesel lugeda sisse 600 fraasi, mis tähendab, et kokku kogutakse enam kui 600 000 heliklippi, mis sisse loetud erinevate inimeste kõnetoonide ja aktsentidega.
Fraasid, mida sisse loetakse, on võetud näiteks seadustest, ajakirjandusest ja muudest tarbetekstidest. Kui ette on antud konkreetsed fraasid, siis kas Google ei või jääda hätta, kui inimene küsib midagi, mida Google'i kõnetuvastuses pole?
Ei jää, vastab Tanel Alumäe. Nimelt treenitakse fraaside sisselugemisega häälikumudeleid, mille abil saab edasipidi hakata tuvastama sõnu, mida inimesed kasutavad. Pideva kasutuse käigus on võimalik koguda veel enam kõnenäiteid ja selle abil tehnoloogiat edasi arendada.
Kõige keerulisemad on nii Google'ile, kui mistahes kõnetuvastustehnoloogiale, nimed, sest neid tuleb pidevalt juurde. Sellegi raskuse aitab ületada pidev tehnoloogiaarendus.
Miks Google eesti teadlaste poole ei pöördunud?
TTÜ foneetika ja kõnetehnoloogia laboratooriumi teadlased on taolisi eesti keelel tuginevaid keeletehnoloogiaid arendanud juba aastaid. See tekitab küsimuse, kas eesti teadlastel oleks midagi Google'ile pakkuda või dubleeritakse praegu eesti teadlaste juba tehtud tööd?
Alumäe nentis, et ilmselt on Google teinud sama arendust paljudele keeltele ja selleks välja töötatud meetodit on lihtsam kasutada, kui võtta üle näiteks siinsete teadlaste meetodid. „Nende [Google'i – toim.] uutele keeltele vastustoe lisamine käib konveiermeetodil. Neil on ilmselt juba suured kogemused ja Eesti keele puhul on iseärasusi suhteliselt vähe,“ märkis Alumäe.
Küll aga saavad eesti teadlase anda neile oma treeningandmed, kuna need on tasuta saadaval. Treeningandmed on see sisend, mille teadlane annab arvutile keele kohta.
Nende andmete pinnalt hakkavad aruvutid, mida üha enam nimetatakse närvivõrguks, töötlema kuuldud kõnet. Närvivõrgu tehnoloogia ei ole inimese aju, kuigi on sellest inspireeritud.
Mis on närvivõrgud?
Närvivõrgud koosnevad suurest arvust neuronitest. Iga neuron on lihtne pisike arvutusmasin, mis teeb lihtsat arvutust. Neid aga kihtidesse kombineerides on võimalik närvivõrkude abil teha pildist ja kõnest teksti. Selleks näidatakse arvutile hästi suurt hulka pilte või muud infot, mille alusel närvivõrk õpib kõnet või mistahes muud infot tuvastama-tõlkima. Päris ise muidugi see närvivõrk ka ei õpi: õppimiseks peab inimene andma sisendnäitele vastuse – õige või vale. See nõuab õigete-valede vastuste andmebaasi ehk treeningandmete loomist.
Intelligentne Google'i assistent on kaugel
Inglise keeles on Google'i assistendilt võimalik küsida kui palju kaalub Aafrika elevant või anda ülesanne panna esmaspäevaks kalendrisse koosolek. Eesti keele jaoks sellist intelligentset assistenti niipea oodata ei ole, arutleb Alumäe.
Põhjus on selles, et taolise tegevuse jaoks peab tehisintellekt lisaks kõnetuvastusele suutma ka kõne mõttest aru saada. Seda aga praegu arendatav lihtne kõnetuvastus ilmselt ei suuda. Nii ongi intelligentne Google'i häältuvastus meist praegu veel aastate kaugusel
Kuid just sarnase arendusega, mis aitaks arvutil mõista teksti sisu, tegelevad TTÜ teadlased just praegu.
„Minu jaoks on kõnetuvastuse pühaks graaliks see, et saaks teha korteriühistu koosolekust telefoniga salvestuse ja mingi rakendus genereeriks sellest kohe protokolli,“ alustab Alumäe näitega.
Sellises salvestises on kõnetuvastuse jaoks mitu väljakutset: erinevad kõnetüübid, palju erinevaid rääkijaid, müra ja siis peaks arvuti veel ka sõnadest ning jutu mõttest aru saama.
Arvuti peab tuvastama mürarikkas keskkonnas salvestatud helist kõne, selle tuvastama ja suutma selle kirjaliku tekstina kokku panna. Käesoleval aastal tegeletaksegi sellega, et õpetada arvutit erinevast mürast kõnet eristama.
Praegu on laboris üks doktorant, kelle ülesanne on õpetada närvivõrkude abil arvutile selgeks, kuidas tekstist aru saada ja sellest kokkuvõte teha.
Kokkuvõtte tegemiseks on jällegi vaja treeningandmeid. Selleks sobivad erinevad tekstikorpused, milles on pikast tekstist olemas kokkuvõte. Näiteks teadusartikkel, mille kokkuvõte on artikli alguses olev abstract.
TTÜ teadlased on aga võtnud enam kui miljon Postimehe ja ERRi veebiartiklit, mille sisukokkuvõte peaks olema pealkiri. Paraku on see keeruline, sest sageli ei anna pealkiri artiklist ülevaadet, vaid rõhub mõnele klikiahvatlusele.
Tulemuste kohta ütleb Alumäe: „Midagi nagu töötab, aga siin läheb ikka veel aega.“ Tulemusi võiks oodata nii umbes viie aasta pärast.
Lugemissoovitus: Geeniuse artikkel Google'i tehismõistusele eesti keele õpetamisest