Uus hiidandmebaas tõstab kilbile väikekeelte võlu

Ehkki mahukaid keeleandmebaase on tehtud varemgi, valmis rahvusvahelisel teadlasrühmal seni suurim andmestik Grambank. Viimase valmimisele kaasa aidanud Eesti keeleteadlase sõnul rõhutab uus andmebaas eriliselt just kõnelejaskonnalt väikeste keelte panust maailma keelelisse väljendusrikkusesse. Ka Uurali keeled on tema sõnul Grambankis hästi pildis.
"Kui mõni keelerühm on kõnelejate arvult suurem, ei tähenda see, et väiksemad keeled oleksid vähem esinduslikud. Väikekeeltes võib just olla säilinud midagi sellist, mida suure kõnelejaskonnaga keeltes ei ole, ja vastupidi," ütleb Tartu Ülikooli läänemeresoome keelte lektor Miina Norvik. Kokku on maailmas üle 7000 keele, millest mingisugunegi grammatikakirjeldus on olemas umbes 5000 kohta.
Neist 2467 keelt on esindatud ka uues Max Plancki evolutsioonilise antropoloogia instituudi professori Russell Gray juhtimisel sadakonna keeleteadlase koostöös loodud keeleliste joonte andmebaasis Grambank. "Keele struktuurijoontest võib mõelda kui omamoodi karkassist või selgroost, millele keel üles ehitatakse," piltlikustab Norvik. Üks pool on sõnavara, kuid selle, kuidas need sõnad lausesse asetatakse, määravad iga keele struktuurijooned.
Norvik aitas kaasa Grambanki andmebaasi esimese versiooni valmimisele. Kõigi andmestikku jõudnud keelte kohta leiab sealt vastused 195-le kas-tüüpi küsimusele. "Üks eesmärk ongi kodeerida jah, on olemas/võimalik või ei, pole olemas/võimalik kaupa ehk vastavalt 1 ja 0 kaupa, et muuhulgas kvantitatiivseid uurimusi võimaldada," avab Norvik.

On või ei ole?
Nagu öeldud, sisaldab Grambanki andmebaas keelte kohta infot 195 küsimuse vastuse kaudu. "Need küsimused on näiteks kujul "Kas keeles on olemas artiklid?" ja "Kas artiklid keeles paiknevad nimisõna ees/järel?"," toob Miina Norvik näiteid. Kui näiteks inglise ja prantsuse keeles käib artikkel sõna ette, siis rootsi keeles umbmäärane artikkel eelneb sõnale, määratud artikkel aga hoopis järgneb.
Veel leiab Norviku sõnul vastuseid küsimustele näiteks keele põhisõnajärje ning ajavormide ja grammatilise soo väljendamise kohta. "Või siis "Kas keeles on olemas mingi kõneviis?". See on näide küsimusest, kus eesti keel saab vastuse "jah", sest meil on ju päris mitu kõneviisi. Samas pole mõnes teises keeles ühtegi," võrdleb lektor veel. Päris ammendavaid järeldusi kõigi Grambankis esindatud keelte kohta siiski teha ei saa, sest iga keele kohta pole grammatikatest teada kõiki andmeid.

Ehkki Norviku sõnul on tegemist eeskätt keeleteadlastelt keeleteadlastele loodud andmebaasiga, ei välista ta, et Grambankist võiks leida midagi põnevat ka keelehuviline tavalugeja. "Näiteks leiab küsimusi arvukategooria kohta. Kui eesti keeles on ainult ainsus ja mitmus, siis siin on ka küsitud, "Kas keeles on olemas kaksus?"," osutab ta.
Kaksus väljendab, et midagi on täpselt kaks. Eesti keele sugulaskeeltest on kaksuse jaoks omaette tunnus näiteks handi ja mansi keeles. Lektori sõnul leiab küsimuse ka triaali kohta: kas leidub mingi tunnus, millega väljendataks seda, et midagi on täpselt kolm. "Jah-vastuse saab kaheksa keelt, millest enamik on Okeaanias," osutab Norvik.

Veel saab Grambankist järele vaadata, kui paljudes keeltes väljendatakse minevikku grammatiliselt. "Meil on näiteks mineviku tunnus -si-, nagu sõnas mängisin. On aga keeli, kus mineviku väljendamiseks kasutatakse mingit sõnalist vahendit, nagu "eile" või "eelmisel aastal", et paigutada tegevus minevikku, samas tegusõna ise ei muutu," võrdleb lektor.
Euroopas levinud keelte kõnelejatele on aga tundmatu mõtteviis, et asju võidakse jagada klassidesse nende kuju järgi. Sel juhul on näiteks piklikke, ümaraid ja lapikuid esemeid tähistavad sõnad eristatud sama selgelt kui saksa või vene keeles mees- ja naissoost sõnad. "Kui vaadata jällegi, kus seda tehakse, siis seda ei näe ei Euroopas ega Aasias. Küll aga leiame seda mõnel pool Aafrikas, Ameerikas, mingil määral ka Okeaanias," kirjeldab Norvik.

Iga keel loeb
Grambanki põhisõnum on Miina Norviku sõnul, et iga keel loeb. "Keelte esindatus on tohutult kasvanud. Väga paljud keeled on nüüd paremini pildis, sealhulgas läänemeresoome keeled," osutab ta. Norviku panus seisnes just Uurali keelte kohta saadud vastuste sissekandmises. "Üritasin seista hea selle eest, et Uurali keeled oleksid hästi esindatud," ütleb ta.
Keele nii-öelda pildisolek on tema sõnul oluline just suurandmetega tehtud kvantitatiivsete uuringute jaoks: andmemassist võivad esile kerkida paljale silmale nähtamatuks jäänud mustrid või seosed. "Kui ma teen mingeid üldistusi, siis minu arvates on kõige olulisem, et ma ei tee neid ainult kõige suurema kõnelejaskonnaga keelte pealt, mida on lihtsalt rohkem uuritud," ütleb Norvik.
Hiljuti valmis andmebaasiga seotud töörühmal Max Plancki evolutsioonilise antropoloogia instituudi keeleteadlase Hedvig Skirgårdi juhtimisel ka temaatiline teadusartikkel. "Artiklil on veel üks tugev sõnum. Grambanki andmestikust on hästi näha, kuidas on jaotunud see, millest keeleteadlane on huvitatud: maailma keeleline rikkus. Just see, kui palju viise meil on midagi väljendada, ja kuidas need on rühmitunud," sedastab lektor.
Kaartidelt tuleb välja, et mõni iseäralik keelejoon esinebki üksikutes maailma piirkondades. Näiteks kasutavad inimesed loendamiseks kehaosanimetusi eeskätt Paapua Uus-Guineas. "Seda võiks ette kujutada olukorrana, kus arvsõna 'üks' oleks meil 'pöial', kaks 'nimetissõrm' ja nii edasi," näitlikustab Norvik. Selline keel on näiteks oksapmini keel.

"Kui need keeled kaovad, kaob väga palju maailma keelelisest rikkusest või nii-öelda aken inimkonna maailmatunnetusse," märgib Norvik. Nimelt ilmneb keelte ohustatuse andmebaasist Glottoscope, et Austraalia ja selle ümbruse keeled on tugevas väljasuremisohus.
"Siit nähtub, et keeleteadlastel on veel päris palju tööd," tõdeb Norvik. Tema sõnul on tarvis veel kirjeldamata keeli talletada ja uurida, et need ei kaoks jäljetult. "See on oluline, kui tahta säilitada või kirjeldada seda, mis üldse on inimkeeles võimalik," sõnab lektor.

Töö jätkub
Enne Grambanki oli suurim keeleliste joonte andmebaas World Atlas of Language Structures ehk WALS. Miina Norviku sõnul eristab kaht andmestikku esiteks nende maht. Ehkki keelte arv andmebaasides oluliselt ei erine, on Grambankis üritatud tagada, et iga keele kohta oleks võimalikult täielik info: teisisõnu on püütud 195 küsimusest vastata võimalikult palju. "Tulenevalt allikate üksikasjalikkuse astmest, ei ole siiski ka Grambankis kõigile küsimustele kõigist kaasatud keeltest olnud võimalik vastust leida," täpsustab Norvik.

Läänemeresoome keeled, mille hulka kuulub ka eesti keel, on Grambankis samuti varasemast paremini esil. "WALS-is olid eesti ja soome keel küll üsna hästi esindatud, aga teistest lähisugulaskeeltest nagu vadja, karjala või vepsa oli ainult üks kuni 17 joont," võrdleb lektor. Parem esindatus tähendab ka tõetruumat panust keeleuuringutesse. Kui võimalikult laialdane hõlmatus piirdus WALSi põhjal tehtud uurimuste puhul kohati vaid 100 keelega, siis Grambanki tutvustavas artiklis on selliseid keeli juba 1500 ringis 2662 keelest.
Teiseks eristab kaht andmebaasi nende info esitamise loogika. Näiteks käänete arvu järgi näitaks WALS keeli teatud arvuliste vahemike kaupa. Grambank seevastu ütleb, kas keeles on olemas mingi teatud kääne või mitte. "WALS ja Grambank täiendavad teineteist: üks ei ole parem kui teine. WALS-is ongi sageli mitu erinevat joont koos ning ka sel on oma väärtus," märgib Norvik.
Uue andmebaasi valmimisel oli võtmeroll lektori sõnul eri keeli uurivate teadlaste käes. "See ei ole andmebaas, mille koostamiseks ma saaksin mõne tavalise keelekõneleja käest infot küsida pelgalt küsimust ette lugedes," tõdeb ta. Küsimused kõlaksid mitte keeleteadlasele kohati üsna keeruliselt. "Ma ei saa minna näiteks Vepsamaale ja küsida vepslaselt, et "Kas teil tegusõna reduplikatsiooni esineb?". Inimene pole sellist nimetust kuulnudki," muigab Norvik. Tänu erialasele terminoloogiale ja teatavale abstraktsioonile oli neid küsimusi võimalik vastata ükskõik millise keele kohta.
Uurali keeli jõudis Grambanki kokku 31 ning seda Turu, Tartu ja Uppsala ülikoolide teadlasrühma koostöös. "Konsulteerisime samuti Uurali keelte uurijatega, kes tõesti on nende keelte eksperdid. Ega praegu kõike tingimata grammatikast ei leia," meenutab Norvik.
Tema töö oli aidata Max Planckis väljakoolitatud kodeerijal Richard Kowalikul leida Uurali keelkonna keelte eksperte. Läänemeresoome keelte puhul aitas Norvik ka ise kodeerida ning üldiselt vaadata, et vastused saaks kodeeritud Grambanki ühtse standardi järgi.
"Meil on ka eraldi Uurali keelte andmebaas UraTyp, mis sisaldab mainitud 195 Grambanki joont, aga lisaks neile koostasime samadel põhimõtetel Uurali keelte kohta 165 relevantset joont veel juurde," lisab Norvik.
Töö jätkub tema sõnul mõlema andmebaasiga ja Grambankist valmib kindlasti ka järgmine versioon. Esiteks lisandub sinna grammatikaga varustatud, kuid seni välja jäänud keeli. "Teiseks, kindlasti on neidki keeleuurijaid, kes pole saanud sõna sekka öelda, või kes näevad, et midagi saaks parandada," osutab lektor.
Näiteks on jooni, mille puhul tema sõnul on mõnikord raske otsustada, kas panna, et joon on keeles olemas või mitte. Vahel võib uuritud joon olla olnud esindatud, kuid keelesisese arengu tulemusel või naaberkeelte mõjul keeles taandunud. Siis on töörühm Norviku sõnul talitanud kokkulepitud ühtsete juhiste järgi ning vajadusel lisanud andmebaasi ka kommentaari. "See kindlasti on otsustamise küsimus. Ükski keel ei ela vaakumis, vaid teda mõjutavad teised keeled ning aja jooksul keeled muutuvad," avab ta tulevikutööd.
Artikkel Grambanki kohta ilmus ajakirjas Science Advances. Andmebaas ise asub siin.