Eesti keele õppija saab lasta arvutil oma keeleoskust hinnata

"Kuidas edenevad mu eesti keele õpingud? Millises seisus on mu sõnavara ja grammatika?" Nendele küsimustele saab nüüd vastuseid nõutada veebirakenduselt. Võtmerolli programmi loomisel mängis uurimus sellest, mismoodi eesti keelt teise keelena õppijad end keeleoskuse eri tasemetel väljendavad, kirjutab Tallinna Ülikooli doktorant Kais Allkivi-Metsoja.
Arvuti ei asenda õpetajat, kuid võib keeleõppurit aidata näiteks automaatse tagasisidega. Selleks, et õppija sooritust hinnata, vajab masin teadmisi selle kohta, millist keelt algajad, edasijõudnud ja vilunud keeleõppijad kasutavad. Hea ülevaate sellest, missuguseid sõnu ja sõnavorme tarvitavad eri tasemega eesti keele õppijad, kuidas nad lauseid moodustavad ja milles kipuvad eksima, annavad eesti keele tasemeeksamitel kirjutatud loovtekstid.
Minu valmivast doktoritööst selgub, et grammatika- ja sõnavaratunnuste alusel saab enam kui 90-protsendilise täpsusega määrata, mis keeleoskustasemele eksamikirjutis vastab.
Mõistatuslikud keeleoskustasemed
Eesti keele oskust mõõdetakse kuueastmelisel skaalal, mille algaste on läbimurdetase A1 ja kõrgeim aste haritud emakeelekõneleja sarnane keeletase C2. Riiklikel tasemeeksamitel hinnatakse nelja vahepealset taset, mida võib ametipostidel nõuda: A2-st kuni C1-ni ehk esmasest vaba keeleoskuseni.
Sama skaala on kasutusel üle Euroopa ja mõeldud sobima kõigile keeltele. Nii kirjeldab see suhtlusolukordi, kus peaks ühele või teisele keeleoskustasemele jõudnu toime tulema – igapäevavestlustest tuttavatel teemadel kuni keerukate probleemide aruteluni.
Konks on selles, et igas keeles läheb vastavate suhtluseesmärkide täitmiseks vaja eriomaseid sõnu, väljendeid ja grammatikavahendeid. Nende osas toetub keeleõpe suuresti õpetajate kogemusele. Õppekavade ja -materjalide täpsustamiseks püüvad keeleuurijad nii meil kui ka mujal välja selgitada keelespetsiifilisi tasemetunnuseid. Siiani pole aga terviklikku ülevaadet, kuidas eri tasemega eesti keele õppijad tegelikult kõnelevad ja kirjutavad ning kuuldut ja loetut mõistavad.
Senised uurimused on enamasti keskendunud ühele-kahele keeleoskustasemele ja vaadelnud põhjalikult väheseid kirjaliku keelekasutuse tunnuseid. On proovitud ka automaatse keeleanalüüsi ja masinõppe abil tekstide taset ennustada, kuid puudu on jäänud selgitused, mis ikkagi tasemelt tasemele muutub, mil määral ja miks.
Keeleõppurite tekstide analüüsi tulemusel olen koos kolleegidega loonud tasemehindamise demorakenduse, mis praegusel kujul on eelkõige abiks keeleeksamiks valmistujatele.
Ühendan oma doktoritöös eesti keele A2–C1-taseme kirjutiste arvutianalüüsi ning grammatika ja sõnavara kirjelduse. Sel moel annab töö korraga teadmisi tõhusamaks keeleõpetamiseks ja ainest keeleõpperakendustele, näiteks veebipõhise tagasiside andmiseks või tasemekohaste e-ülesannete koostamiseks. Selline lähenemisviis on ka rahvusvaheliselt uudne.
Kasutan keeletarkvara, mis määrab tekstides sõnade algvormid, tuvastab sõnaliigid ja grammatilised vormid (nt sõbraga on nimisõna sõber ainsuse kaasaütleva käände vorm). Sedasi leian arvulised muutujad, nagu sõnaliikide ja käänete esinemissagedus või erinevate sõnade hulk tekstis, mis annavad statistilise ülevaate iga taseme kirjalikust eneseväljendusest. Ühtlasi teen katsetuste teel kindlaks statistilised mudelid, mis suudavad tekstide taset kõige paremini prognoosida.

Käändeid ei maksa karta
Praeguseks olen ma vaadelnud 480 tasemeeksami loovkirjutusülesande vastust (kõigilt tasemetelt 120 teksti) ligi 150 tunnuse alusel. Need iseloomustavad grammatikat, sõnavara ja teksti üldist keerukust, mis väljendub sõnade, lausete ja teksti enda pikkuses.
On nelja keeleoskustaset läbivalt eristavaid tunnuseid ja tunnuseid, mille poolest erineb vaid osa tasemetest või mis oluliselt ei muutu. Mõned muutused ei kulge alati ühes suunas. Näiteks eitav kõne sageneb B2-tasemeni ja C1-tasemel on seda taas vähem. Seejuures on leitud, et eesti keele õppijad pruugivad eitust rohkem kui eestikeelsetele tekstidele üldomane – kõrgtasemel see erinevus taandub. Tegusõna teist pööret kasutatakse rohkem kirjades ning kolmandat pööret jutustustes-arutlustes.
Järjepidevalt suureneb näiteks tekstis leiduvate käänete arv. A2-taseme kirjutistes esineb sõnu keskmiselt kuues, B1-tasemel kaheksas, B2-tasemel üheksas ja C1-tasemel 11 käändes.
Nimetava, omastava ja osastava kõrval võtab õppija esimesena kasutusele seesütleva, alaleütleva, alalütleva ja kaasaütleva käände. B1-tasemel lisandub seestütlev kääne, B2–C1-tasemel saav kääne. Ülejäänud käänete kasutus on väga harv nagu ka eesti kirjakeeles. Järelikult pole vaja kõiki 14 käänet, mis eesti keele õppijaid heidutavad, kohe soravalt osata – kõik tuleb omal ajal.
Mitmeid käändekasutuse tunnuseid võtab arvesse ka hindamisrakendus. See annab eraldi hinnangu teksti grammatika, sõnavara ja üldkeerukuse kohta ning lisaks koondhinnangu. Kokku kasutab programm nelja tasemeennustusmudelit, mis rühmitasid õigesti 91–97 protsenti testimiseks kasutatud eksamikirjutistest.
Nii täpset tulemust ei ole varem eesti keele automaathindamisel ega ka rootsi, saksa ja tšehhi keele sarnastes uurimustes saadud. Samas on tekstivalim suhteliselt väike ja eksamitööde omaduste põhjal pole võimalik usaldusväärselt hinnata muus olukorras – näiteks ajapiiranguta ja sõnaraamatute abiga – kirjutatud tekste. Plaanin valimisse lisada nii uusi eksamitekste kui ka teisi A2–C1-taseme kirjutisi, mille taseme on määranud kogenud eksamihindajad.

Eksamihindajatele jääb töö alles
Rakendus ei arvesta hetkel õigekirjavigadega. Töötame aga Tallinna ülikooli keeletehnoloogia uurimisrühmaga välja paindlikku spellerit, mis siluks keeleõppijaile tüüpilisi ebatäpsusi, näiteks hääldusvigadest tulenevat kirjapilti. Tahame, et tasemehinnangu kõrval parandaks tekstihindaja sõnade õigekirja ja kirjavahemärke ning pakuks nõu sõnavalikul.
Selline vahend võimaldaks kontrollida oma kodutööd, motivatsioonikirja või ametikirja. Õpetajat võiks see aidata näiteks keelekursuse paigutustestide hindamisel. Siiski suudab vaid inimpilk hinnata teksti sisu ja ülesandele vastavust. Tasemeeksamite hindajad ei pea tööpõua pärast veel nii pea muretsema.
Olgu öeldud, et emakeeleoskust samal skaalal ei mõõdeta. Eestikeelsele kasutajale annab rakendus aimu, mis keeleoskustaset keeleõppija minimaalselt vajab, et tema kirjutisega sarnane tekst kokku panna. Ei tarvitse imestada, kui kolleegile saadetud e-kiri saab hinnanguks A2 või B1.
Artikkel ilmus Eesti Teaduste Akadeemia korraldatava konkursi "Teadus 3 minutiga" raames, mille pidulik finaal toimub 5. veebruaril.

Toimetaja: Jaan-Juhan Oidermaa