Kuidas otsida teadustöid geograafilise piirkonna järgi?
Väga paljud teadustööd, eriti keskkonnaalased, viiakse läbi kindlal uurimisalal. Kahjuks ei ole tänaseni võimalik teadusartikleid otsida kaardipõhiselt, koordinaatide või huvipiirkonna järgi. Tartu Ülikooli geograafid tegid selle võimalikuks – Uus-Meremaal.
Tartu Ülikooli, Uus-Meremaa Geoloogia ja Tuumateaduste Instituudi ning Salzburgi Ülikooli koostöös valminud uuringus digitaliseeriti ja analüüsiti üle 5800 teadusartikli keskkonnateaduste valdkonnast ja arendati välja geograafilise otsingu meetod, mis võimaldab neid geokodeerida (leida uurimisalade tekstilise aadressi järgi geograafilised koordinaadid) ning hiljem asukoha järgi otsida.
Väga paljud teadustööd, eriti keskkonnaalased, viiakse läbi kindlal uurimisalal. Kahjuks ei ole tänaseni võimalik teadusartikleid otsida kaardipõhiselt, koordinaatide või huvipiirkonna järgi. Tihti on aga vaja leida uurimustöid just asukoha järgi. Teaduskirjastused võimaldavad enamasti küll määrata uurimisala asukoht interaktiivselt kaardil (nt Google Maps), aga artikleid selle järgi otsida ei saa.
Sarnane situatsioon on hetkel valitsemas seoses üha laiemalt levivate avaandmetega. Olemasolevad suured teaduslikud avaandmekogud võimaldavad sisestada rohkelt metaandmeid (metaandmed on andmed andmete kohta nt kus ja kuna on andmed kogutud), aga ei võimalda teha päringuid asukohapõhiselt.
Positiivse näitena sedalaadi avalikkusele suunatud otsingutest võib tuua Eesti maa-ameti ja Uus-Meremaa geoportaali, mis pakuvad tsentraalset online metaandmete kataloogi rahvuslikult oluliste andmekihtide jaoks. Nendesse kataloogidesse saab teha päringuid andmebaasi keeles, mis toetab geograafilisi koordinaate vastavalt rahvusvahelistele standarditele (ISO/OGC). Sarnased kataloogid on kasutusele võetud paljudes riikides. Standardid on vajalikud selleks, et tarkvarad, mille abil andmeid vahetatakse, suudaksid omavahel koostööd teha ja andmeid oleks võimalik vahetada platvormist sõltumatult.
Käesolevas töös uurisime, kuidas teadusartikleid ja raporteid on võimalik paremini leitavaks muuta lisades neile teabe asukoha kohta. Selle jaoks pidime leidma artiklites kohanimed ja siduma need kohanimed geograafiliste koordinaatidega kasutades kohanimeloendit (inglise keeles gazetteer).
Uurimuses analüüsiti kolme Uus-Meremaa keskkonnateaduste ajakirja 5800 artiklit (publitseeritud alates 1970), et leida, kas neis on piisavalt asukohale viitavaid sõnu, mis võimaldaksid artikleid geokodeerida. Me otsisime artiklite pealkirjadest, sisukokkuvõtetest ja täistekstidest kohanimesid, mis kajastusid Uus-Meremaa kohanimeloendis. Kõikide artiklite täistekstides oli kokku 28,5 miljonit sõna, mille läbianalüüsimine võttis väikesel klasterarvutil (4 protsessorit ja 16 GB RAMi) aega umbes 17 tundi. Keskmiselt oli igas artiklis mainitud 15 kohanime. Kokku tuvastati artiklites peaaegu 1000 kohanime, mida mainiti kokku üle 4000 korra.
Kaardil on näha õigesti tuvastatud kohanimed nende tüübi alusel. Kaart annab ülevaate, millised kohad on enim uuritud teadustöödes.
Tulemuste kontrollimiseks vaadati inimese poolt käsitsi läbi 5% artiklitest ja hinnati, kas iga artikli kohta leitud kohanimed olid olulised ja kui palju kohanimesid ei olnud olulised. Suur osa täistekstide põhjal tuvastatud kohanimedest ei olnud õiged (st asukoht ei sattunud tegelikule uurimisalale). Kui aga artikli pealkirjas või sisukokkuvõttes esines kohanimi, siis oli see enamasti õige. Paraku paljude artiklite pealkirjades ja sisukokkuvõtetes ei kajastunud kohanimesid.
Peamiselt olid vea-allikateks duplikaadid (mitu asukohta sama nimega). Teiseks suuremaks vea-allikaks täistekstides olid autorite ja kirjastaja aadressid ning mõningad autorite nimed, mis esinevad ka Uus-Meremaal kohanimedena (nt Alexandra ja Ashley). Kolmandaks probleemiks olid kohanimed, millel on ka sisuline tähendus. Näiteks Rock (eesti keeles "kivi") on mäe nimi nii Cantebury kui ka Marlborough piirkonnas, aga samas väga levinud sõna geoloogiaalastes uurimustes. Kokkuvõttes selgus, et kui pealkirjas või sisukokkuvõttes oli uurimisala mainitud, siis on seda artiklit kasutatud meetodi abil võimalik kõige paremini geokodeerida ja tänu sellele ka asukohaotsinguga hiljem leida.
Lõpuks loodi geokodeerimise tulemuste põhjal iga artikli jaoks metaandmekirjeldus, mis sisaldas ühtlasi geograafilist viidet. Loodud metaandmed laeti standarditel põhinevasse kataloogiserverisse. Sellest kataloogist on nüüd võimalik otsida teadusartikleid autorite, pealkirja, võtmesõnade ja geograafilise asukoha järgi nii kaardilt kui ka koordinaatide alusel. Veebirakenduses on võimalik kasutajal kaardil määrata enda huvipiirkond ning rakendus annab tulemusena kõik selle piirkonna kohta tehtud uurimused. Meile teadaolevalt on see esimene edukas katse teadusartikleid geograafilise päringu abil kättesaadavaks teha. Loodetavasti lisandub selline võimalus lähiajal ka olulisemate teadusartiklite andmebaaside loomulikuks osaks.
---
Uurimus on rahastatud Eesti Teadusagentuuri Mobilitas Pluss järeldoktori grandi number MOBJD233, Marie Skłodowska-Curie individuaalgrandi 660391, Tartu Ülikooli Sihtasutuse Ernst Jaakson stipendiumi ja Uus-Meremaa Ettevõtlus ja Innovatsiooni Ministeeriumi SMART projekti number C05X1102 poolt.
Toimetaja: Randel Kreitsberg, Tartu Ülikool