Doktorant õpetas eestikeelsele kõnesüntesaatorile kurbust ja viha
See ei olnud esialgne plaan, iselugeja ei saanud rõõmu väljendamisega hakkama.
Täna Tartu ülikoolis doktoritööd kaitsev keeletehnoloog Kairi Tamuri tahtis kõnesüntesaatorile õpetada selgeks kolm põhiemotsiooni: rõõmu, kurbuse ja viha. Paraku õnnestus tema eksperiment vaid osaliselt. Ta suutis õpetada eestikeelse iselugeja väljendama viha ja kurbust, kuid mitte rõõmu.
“Emotsioonid on inimkõnes alati olemas ja seepärast peaksid need olema tajutavad ka inimkõnet matkivas sünteeskõnes,” on Tamuri veendunud.
Sünteeskõne on kõnesüntesaatori ehk iselugeja kõne, kus kirjalik tekst on muudetud suuliseks. Üks maailma kuulsamaid kõnesüntesaatori kasutajaid on Stephen Hawking, kes põeb amüotroofset lateraalskleroosi ja ei saa seetõttu ise rääkida.
Kõnesünteesi rakendataksegi enim nägemis-, lugemis- ja kõnepuudega inimeste abivahendites ning inimese ja masina suhtluses, multimeedias. Seepärast on väga oluline, et sünteeskõne kõlaks loomulikuna, võimalikult inimese rääkimise moodi kõigis selle aspektides.
Kuna emotsioonide väljendumine erineb keeleti ja kultuuriti ning kõnes esinevaid emotsioone tuntakse heli järgi paremini ära just sama keele ja kultuuri sees, vajas eestikeelsele kõnesüntesaatorile emotsioonide selgekstegemine eraldi uurimust.
Kuid mis rõõmu väljendamises nii rasket on, et eestikeelne kõnesüntesaator sellega hakkama ei saanud? Kas kinnitust leiab arvamus, et eestlased ongi kurvameelsed ja eesti keeles polegi võimalik rõõmu väljendada?
Sellised eeldused lükkab eksperimendi teinud Tamuri kohe ümber: “Inimkõne puhul pole rõõmu väljendamises ja selle tajumises midagi rasket. Keeruliseks osutus see kõnesünteesis.”
Ta selgitab, et võimalusi, kuidas emotsioone sünteeskõnele lisada, on mitu. Üks neist on luua kõnesüntesaatori jaoks emotsionaalse kõne akustilised mudelid. Need mudelid sisaldavad emotsioonidele omaseid akustilisi mustreid, mis neid teistest emotsioonidest ja neutraalsest kõnest eristavad.
Seda, et igal emotsioonil on just talle eripärane hääleline väljendumine, näitavad muu hulgas telefonivestlused, kus kuulajad suudavad rääkija emotsioonid ära tunda ainuüksi heli põhjal, ilma kõneleja nägu nägemata.
“Katsed on näidanud, et inimesed suudavad kõnelõigu emotsioone määrata isegi siis, kui kõik selle lõigu sõnad on tähenduseta. Seega võib oletada, et hääl tõesti kannab informatsiooni kõneleja emotsioonide kohta ja emotsioonide häälelistel väljendustel on erinevad akustilised mustrid.”
Seda teades otsustaski Tamuri koos eesti keele instituudi keeletehnoloogidega kokku panna viha, kurbuse ja rõõmu akustilised mudelid.
Kuigi idee oli hea, ei suutnud süntesaator nende mudelite abil siiski kuulajale äratuntavalt rõõmu väljendada. Ent samu mudeleid kasutades saab iselugeja viha ja kurbuse väljendamisega hakkama üsna hästi (loe: rahuldavalt).
“Kui kurbuse ja viha tundsid kuulajad sünteeskõnes hästi ära, siis rõõmu mitte,” kinnitab Tamuri.
Rõõmu parim tuvastusprotsent meessünteeshäälest oli 55 ja naissünteeshäälest ainult 40. Viha ja kurbuse puhul olid mees- ja naissünteeshääle äratundmise protsendid vastavalt 65 ja 60 ning 80 ja 75.
Klõpsa fotol ja kuula, kas tunned kõnesüntesaatori väljendatud emotsioonid ära:
Emotsioonide modelleerimine. Autor: Eesti keele instituut/Kairi Tamuri
Mis siis emotsioonimudelitel rõõmu puhul ikkagi vajaka jäi?
“Mudelite loomisel lähtusime inimkõne akustilise analüüsi tulemustest. Kui kurbuse ja viha tekitamiseks sellised mudelid sobisid, siis rõõmu puhul need head tulemust ei andnud.” alustab Tamuri.
Ta arvab, et olukorda parandaks see, kui rõõmu puhul parameetrite otsinguala suuremaks teha. “See tähendab, et mängiksime parameetrite väärtustega veidi enam, kui me seda praegu tegime.”
Tamuri eksperimendis kasutatud emotsioonimudelid sisaldasid nelja akustilist parameetrit: kõnetempot, intensiivsuse taset, põhitooni kõrgust ja põhitooni ulatust.
“Kindlasti tasuks proovida emotsionaalset sünteeskõnet luua parameetrilise kõnesünteesi kõrval ka masinõppe meetoditega,” arvab noorteadlane ja lisab, et eestikeelse kõne emotsioonide akustika uurimine ja emotsioonide modelleerimine on alles algusjärgus ja arenguruumi jagub.
Kolm huvitavat fakti eestikeelse emotsionaalse kõne kohta:
- Kõige kiiremini räägib eestlane siis, kui ta on vihane (17,5 häälikut sekundis). Eesti keeles väljenduvad emotsioonid kõnetempos teiste keeltega sarnaselt: kõneleja räägib kõige kiiremini viha korral ja kõige aeglasemalt kurbuse puhul.
- Kõige valjem on eestlase kõne siis, kui ta kõneleb neutraalselt, ilma erilise emotsioonita. See võib olla eestikeelse kõne eripära, et neutraalne kõne on kõrgema intensiivsuse taseme ja ühtlasema helinivooga kui emotsionaalne kõne. Sellist tulemust võis mõjutada ka etteloetud kõne lugemisstiil.
- Kõige ebatäpsem on eestlase artikulatsioon siis, kui ta väljendab kurbust. Kurb inimene ei artikuleeri häälikuid sama jõupingutusega nagu tavalise, neutraalse kõne puhul ning häälikud redutseeruvad ehk kaotavad oma kvaliteeti ja kõneleja artikulatsiooni täpsus langeb. Artikulatsiooni täpsuse langemine kurbuse puhul näib olevat keeleti universaalne nähtus.