Teadlased arutlesid suurandmete ja keeleteaduste vaheliste seoste üle
Suurandmed on moesõna erinevates teadusvaldkondades. Kuidas aga kasutab tänapäevane keeleteadus ära suuri tekstiandmeid, selgitasid Tartu ülikooli kvantitatiivse keeleteaduse teadur Kristel Uiboaed, arvutilingvistika dotsent Kadri Muischnek ja eesti keele vanemteadur Liina Lindström.
Keeleteadusliku uurimismaterjali hulka on alati kuulunud ka mingit tüüpi tekstid ja keeleteadlased juba aastakümneid tegelenud suurte tekstiandmete analüüsimisega. Reeglina on tegu tekstikorpuse ehk polüfunktsionaalse elektroonilisel kujul oleva tekstikoguga, millesse kuuluvad tekstid on valitud eesmärgipäraselt, nii et nendest koosnev tervik annaks tõepärase pildi kogu keelest, selle hetkeseisust või muutumisest.
Kui varasemad kirjaliku keele korpused sisaldasid valdavalt toimetatud tekste, siis neile on lisandunud üha enam spetsiifilisi korpusi: nii näiteks on meil eesti keele kohta olemas lisaks kirjakeele korpusele, veel vana kirjakeele korpus, murdekorpus, spontaanse kõne suuline korpus, suulise ja netikeele korpus, kogu Eesti internetti hõlmav internetitekstide korpus jne.
Enamik neist sisaldavad tänapäeva keelenormidele päriselt mittevastavaid keelevorme. Keeleteadlase jaoks on see oluline materjal, sest ütleb midagi keelelise variatiivsuse kohta, mis võib olla seotud nii geograafilise, sotsiaalse, žanrilise jms eripäraga.
Teadlaste uued oskused
Tänapäeval kirjutavad kõik inimesed rohkem kui kunagi varem inimkonna ajaloos ja tekstilist materjali lisandub suurtes kogustes pidevalt. Seega on uurimismaterjali kogumisvõimalused tänu internetile ja sotsiaalmeediale oluliselt avardunud ning materjali on väga palju.
Suurte tekstiandmete kasutamine uurimismaterjalina eeldab tekstide korrastamise ja analüüsimeetodite automatiseerimist, aga ka kvantitatiivsete uurimismeetodite rakendamist. Selline olukord eeldab tekstidega töötavatelt uurijatelt hulgaliselt uusi oskusi: kuidas materjal kätte saada, kuidas see viia töödeldavale kujule ning kuidas ja milliste meetoditega seda analüüsida.
Kui me tahame järeldusi teha võimalikult suure materjali põhjal, siis on möödapääsmatu tekstiandmete kogumise, töötlemise ja analüüsi automatiseerimine. Sellised töömeetodid laiendavad oluliselt võimalike keeleteaduslike uurimisküsimuste ringi.
Tuleb siiski meeles pidada, et sellisel materjalil on uurimistöö seisukohalt ka mitmeid piiranguid. Kindlasti ei esinda elektrooniliste keskkondade keelekasutus näiteks suulist kõnet, murdeid, kõiki kõnesituatsioone, dialooge, paralleeltõlgitud tekste, ei võimalda valida tekstitüüpe ja -žanre, samuti puudub lingvistiline märgendus (nt sõna algvorm ja vormiinfo vms) ja taustainfo tekstide autorite kohta, (vanus, sugu, emakeel, vanus, elukoht, haridus jmt).
Lisaks tuleb hoolas olla sagedusandmetega, sest sama teksti sageli kopeeritakse tsiteerimise või sellele vastamise eesmärgil. Osa eelpoolloetletud puudustest on parandatavad: lingvistilist märgendust saab korpusesse või ka lihtsalt veebist kogutud andmetesse lisada (üsna aja- ja ressursikulukas, kui materjal pole nn standardne kirjakeel) ja tekstiliike saab automaatselt tuvastada.
Veebikeele väljakutse
Veebikeel on pidevas muutumises, nii žanriliselt kui keeleliselt, lisandub uusi suhtluskeskkondi, nende otstarve ja kasutusala muutuvad samuti pidevalt. Keeleuurija ja inimsuhtluse uurija peab kõvasti pingutama, et mitte uurida üleeilset päeva. Teisalt pole see nii suur probleem, kui eesmärgiks on teada saada mingeid üldisi keele toimimispõhimõtteid, sest need ei muutu nii kiiresti.
Sotsiaalmeedias kasutatava keele kiire muutumine on probleem just keeletehnoloogiliste põhitööriistade loojate jaoks. Näiteks saab valmis abisõnastik morfoloogilise analüüsi tegemiseks 2015. aasta foorumipostituste jaoks ja 2017. on juba uued teemad, uued sõnad, uus släng ja tööd tuleks alustada otsast peale.
Suurte tekstiandmete analüüs on suur osa keeleteaduslikust uurimistööst ja see võimaldab teha keele kohta adekvaatsemaid järeldusi. Isegi kui pole materjali kõige kohta, kuid kui valim on piisavalt suur, siis saab uurimistöö seisukohalt olulisi puuduvaid muutujate väärtusi ennustada, keelekasutust mudeldada, teha kvantitatiivseid simulatsioonimudeleid keele arengu ja suhtlussituatsioonide uurimiseks jne. Sellised andmed ja meetodid võimaldavad analüüsida keelt kui elavat organismi.
Väike Eesti = väikeandmed?
Kui rääkida ainult eesti keelest, siis on loomulikult problemaatiline rääkida tekstilistest "suurandmetest", kuna rääkijate arv on väike, mis tähendab, et teatud tüüpi reaalajas toodetava materjali hulk on samuti väike.
See võib seada piirangud sellele, mida ja milliste meetoditega on võimalik uurida. Näiteks eri tüüpi Twitteri analüüsid ingliskeelsel materjalil on väga populaarsed, kuid sarnaste uurimuste tegemine eesti keeles on kordades pikaajalisem protsess või üldse võimatu, sest materjali kvantitatiivse analüüsi jaoks lihtsalt pole piisavalt.
Keeleuurimise ja -ressursside loomist raskendab isikuandmete kaitse temaatika. See on väga oluline üksikisiku seisukohalt, aga takistab keeleressursside jagamist: iga uurimisrühm peab või peaks teatud sotsiaalmeedia postitustest korpuse tegemist jälle otsast alustama.
Lisapiirangud on ka igal suhtluskeskkonnal, näiteks kasutustingimused võivad keelata korpuse jagamise ja levitamise selle algkujul. Suurte tekstikorpuste koostamisel tuleb arvestada ka autorikaitse nõudeid ning see võib jätta oma jälje sellele, kui palju ja mis tekste me üldse saame uurida. Järjest enam digitaliseeritav ajalooline ja kultuuripärand on kindlasti lisaks kõigele muule ka keeleteaduse seisukohast huvitav uurimismaterjal.
Vaata 17. jaanuaril toimunud veebiseminari. kus olid vaatluse all suurandmete ja suurte tekstikorpuste töötlemisega seotud teemad. Küsimuste nagu "milliseid erinevaid võimalusi selleks on?" ja "milliste metodoloogiliste ja eetiliste probleemidega tuleb lähiajal tegelda?" üle arutlesid teadur Kristel Uiboaed (eesti ja üldkeeleteaduse instituut) ja ühiskonnateaduste instituudi infosüsteemide assistent Maris Männiste. Arutelusse panustasid ka inimgeograafia professor Rein Ahas (ökoloogia ja maateaduste instituut) ja TÜ ühiskonnateaduste instituudi ning Zürichi Tehnikaülikooli vanemteadur Anu Masso, vestlust modereeris Kadri Ugur.
Toimetaja: Marju Himma