Suur lausemustrijaht juhatab vaistliku grammatika sõnastikku

Seni on sõnastikes grammatikast kirjutatud peamiselt vaid sõnade käänetest ja pööretest, aga nende korrektset kasutust lauses pole seal veel õpetatud. Lausemustrite leidmine looks võimaluse lisada sõnastikku lausegrammatika, mis aitaks kasutajatel moodustada korrektseid lauseid.
Juba 1. klassis õpetatakse, et laused moodustuvad sõnadest. Tegelikult moodustuvad laused mustrites, mille sees me lihtsalt sõnu asendame. Nende tõttu saab emakeelne kõneleja aru ka väljamõeldud sõnadega lausetest, kirjutab Eesti Keele Instituudi nooremteadur-arvutilingvist Kertu Saul.
Võtame näiteks lause 'Tronkel prengles kahrilt higule'. Saame aru, et toimus mingit tüüpi liikumine, mida tegi tronkel kahri ja higu peal. Kuigi sõnade tähendus on meile tundmatu, oli lause tähendus arusaadav. See juhtus, sest väljamõeldud sõnad olid paigutatud lausemustrisse [MIS] [MIDA TEGEMA] [MILLELT] [MILLELE]. Samasse mustrisse sõnu pannes saab moodustada lõpmatu arv lauseid: "Kalur hüppas paadilt kaldale.", "Rakett lendas Maalt Kuule.", "Rätik kukkus laualt põrandale." jne.
Vale mustri kasutamise tõttu võib lause tähendus jääda arusaamatuks või hoopis vigaseks. Mustrid on eriti keerulised just võõrkeelsetele kõnelejatele, sest mustrid erinevad keeleti. Näiteks sõitmisest rääkides väljendame tihti sõiduvahendit. Aga kui eesti keeles sõidame bussiga, siis inglise keeles bussi teel (by bus) ja vene keeles bussi peal (на автобусе). Vene emakeelega inimesele kõlab seetõttu lause "ta reisib bussi peal" täiesti loomulikult, kuigi eesti keelele pole see omane.
Taolistest komistuskividest pole kaitstud ka emakeelsed eestlased. Näiteks kas eesti keeles öeldakse pigem, et helistan numbril 112, numbrile 112, või on mõlemad variandid ühtmoodi kasutuses? Praegu ei ole kahjuks suuremat osa mustritest kuskilt võimalik kontrollida.
Oma doktoritöös üritan neid lausemustreid automaatselt leida. Selle jaoks otsin arvuti abil miljonitest lausetest grammatilisi sarnasusi. Lausemustrite leidmisel ei piisa aga ainult grammatikast, vaid appi peab võtma ka tähenduse. Sellel on mitu põhjust.
Esiteks on sama sõna eri tähendustel tihti erinevad mustrid. Näiteks saab korraga pista paberi nii sahtlisse (KUHU) kui ka põlema (MIDA TEGEMA). Pista saab aga ka kõhus (KUS) või kasutada seda sõna mõne terava märkuse edasiandmiseks, näiteks lauses ""Jäta jama!" pistab naine." (OTSEKÕNE). Niisiis on sõnal pistma neli erinevat mustrit, mis kõik esinevad selle sõna erinevate tähendustega.
Tähenduste eristamine on oluline veel seetõttu, et mustrisse tohib panna ainult teatud sisuga sõnu. Näiteks sõidetakse tavaliselt ikka kuhugi kohta, mitte mingisse aega nii, et ajasõnad sinna mustrisse ei sobi. Eesti keeles on üle kahe miljardi sõna, mistõttu tuleb nende analüüsimiseks kasutada arvuti abi. Juhisteta ei oska see aga öelda sedagi, kas keemiatehas on pigem aeg või koht. Niisiis pean lausemustrite leidmiseks arvutit korralikult õpetama.
Töö tulemusena peaksin üles leidma enamiku eesti keele lausemustritest. Need tuleks ka laiemale avalikkusele kättesaadavaks teha. Selle jaoks löön kaasa Eesti Keele Instituudi projektis "Uue aja sõnastik", mis uurib ka lausemustrite sõnaraamatusse lisamise võimalusi. Selle tulemusel saaks iga inimene oma lause grammatilisust mugavalt ja kiirelt kontrollida. Ühtlasi aitaks see grammatikat põnevamaks muuta, et seda oleks eestikeelsele õppele üleminekul lihtsam õppida ja õpetada.
Mustrite sõnastikku lisamine pole aga niisama lihtne. Need tuleks sõnaraamatus õigete tähenduste alla jaotada, aga arvutile on sõnastikus olevad tähendused eristamiseks liiga täpsed. Käsitsi oleks see töö aga väga aeganõudev, sest mustreid võib kokku tulla kümneid tuhandeid. Paljud sõnad on ka liiga haruldased, et nende mustreid üldse automaatselt tuvastada saaks.
Lausemustrid kõnnivad meiega märkamatult kaasas igas lauses, mida loeme, kirjutame, räägime või kuuleme. On need siis keeleõppijad, torumehed, ametnikud või poemüüjad: igaüks peaks saama ligi infole millestki, mida ta iga päev kasutab. Oma doktoritöös üritangi teha kättesaadavaks selle osa grammatikast, mis seni meie kõigi eest varju on jäänud.

Artikkel ilmus Eesti Teaduste Akadeemia korraldatava konkursi "Teadus 3 minutiga" raames, mille finaal toimub 19. veebruaril.
Kertu Saul on esimest aastat Eesti Keele Instituudi arvutilingvistika nooremteadur ja Tartu Ülikooli doktorant. Arvutilingvistina uurib ta arvuti abiga keelt ja arendab eesti keelega arvestavaid digilahendusi. Oma doktoritöös üritab ta arvutiprogrammide abil tekstidest leida, kuidas inimesed eesti keeles lauseid moodustavad. Selle uurimisel tulevad talle enda sõnul kindlasti kasuks nii kunstikoolis lihvitud loov mõtlemine kui ka arvutimängudest tulenev huvi tehnoloogia vastu.
Toimetaja: Jaan-Juhan Oidermaa