Kuidas ära tunda usaldusväärset teadustööd?
Kümmekond aastat tagasi ilmus ajakirjas PLOS Medicine kurjakuulutava pealkirjaga essee ''Miks on väärad enamik avaldatud uurimustulemustest''. Toonaseid järeldusi kinnitavad vähemal või rohkemal määral mitmed viimastel aastatel ilmunud vaheanalüüsid. ERR Novaator uuris kolmelt katsete korratavust uurivalt teadlaselt, kuidas kõige paremini terasid sõkaldest eristada.
Lühidalt sõltub tulemuste ajahambale vastupidamine eelkõige sellest, kui suure valimi pealt järeldusi tehakse ja milline on tulemuste statistiline olulisus. Teisisõnu, mida rohkem uurimisaluseid katsed hõlmavad ja mida väiksem on võimalus, et tulemusi saab seletada juhusega, seda tõenäolisemalt peavad need paika ka tulevikus.
Seejuures võib välja tuua, et mida lähemal on p-väärtus maagilisele piirile p=0,05, mis tulemused üldjuhul teadusajakirjas avaldamiskõlbulikuks muudab, seda tõenäolisemalt ei suudeta neid hiljem korrata.
Käitumisökonoomikale spetsialiseeruv Teck-Hua Ho on Singapuri riikliku ülikooli teaduse ja tehnoloogia valdkonna asepresident ja ajakirja Management Science peatoimetaja. Hiljuti ilmunud töös lahkas Ho kolleegidega 18 majandusteaduse tippajakirjas avaldatud töö paikapidavust, mis kujutas esimest omataolist valdkonna vaheanalüüsi.
Magnus Johannesson on Stockholmi majanduskooli professor, kelle nime leiab nii otsustusteaduse seisukorda käsitlenud töö kui ka möödunud aastal ilmunud saja psühholoogia vallas avaldatud uurimuse proovile panemist kirjeldava analüüsi autorite seast.
Statistikale ja metodoloogiale spetsialiseeruv Tillburgi ülikooli dotsent Marcel van Assen lööb aktiivselt kaasa teadustööde suuremat läbipaistvust edendava Avatud Teaduse Keskuse tegemistes ja osales 100 psühholoogiakatse usaldusväärsust hinnanud töö tulemuste analüüsis.
M. J.: Üks üldine õppetund on see, et kui tahad tõesti tulemustesse tugevalt uskuda ja need oma maailmapilti lisada, siis pead esmalt veenduma, et neid suudeti hiljem teistes töödes korrata. Seda vähemalt ühes, parem kui mitmes uurimuses. Sama järeldus koorub välja nii meie hiljutisest analüüsist kui ka psühholoogiat käsitlenud tööst.
Teisisõnu tähendab see, et täiesti uutel ja üllatavatel teadustulemustel peaks laskma esmalt settida ning tuleks oodata, kuni teised neid kordavad. Van Assen Johannessoniga täielikult ei nõustu.
M. v A.: Kõik sõltub sellest, kui kvaliteetne esimene uurimus on. Kui neid kahte projekti võrrelda, siis on üldised tendentsid samad. Kui algse töö valim on ikka suur, siis suudetakse äärmiselt tõenäoliselt katset edukalt korrata. Teine on muidugi see, et tulemused, mille p-väärtus jääb 0,05 piirile, on tõenäolisemalt väärad ja nende usaldamise seisukohalt on äärmiselt oluline, et neid tulevikus tõepoolest korratakse.
Statistiliselt oluliseks nimetatakse tulemusi, mille korral on p-väärtus väiksem 0,05st. Teisisõnu on tõenäosus, et sarnase tulemuseni võib jõuda juhuslikult, väiksem kui viis protsenti. Seda eeldusel, et nullhüpotees ja teised eeldused on tõesed. Paraku pole kriteerium ideaalne ja seda on võimalik moonutada. Näiteks ei määrata eelnevalt uurimisaluste hulka, vaid kontrollitakse kindla katsealuste arvu tagant, kas efekti nähakse või mitte või heidetakse osa kogutud andmetest sooduks kõrvale.
Ehedaks näiteks on Pennsylvania ülikooli professori Joseph Simmonsi ja ta kolleegide sulest 2011. aastal ilmunud töö, milles suutsid nad p-väärtuse häkkimisega tõestada, et Beatelsite laulu ''When I'm 64'' kuulamine muudab inimesed 1,5 aastat nooremaks. Seejuures ei pea teadlased tahtma tulemusi moonutada teadlikult, vaid võivad teha andmete analüüsis lihtsalt ebaõigeid valikuid.
M. v A.: Iga uurimusi lugev inimene peaks seda meeles pidama. Kui p-väärtus jääb ikka 0,05 ja 0,02 vahele, siis ei tohiks me uurimust kohe tõe pähe võtta ja arvestama võimalusega, et mõju pole tegelikult olemas või hinnatakse selles suurust üle. Muidugi on teatavaid erandeid, aga need kaks näitajat on midagi, millest lähtuda.
Kui üldisemaid trende vaadata, siis on väga hästi näha, et alguurimused ülehindavad efekti suurust süstemaatiliselt üle ja korduskatsetes on see algsest tunduvalt väiksem. Sõnum on selge!
Samadele näitajatele viitab ka Ho ja kutsub teadlasi olema ise enda ja teiste tööde suhtes kriitilisemad.
T.-H. H.: Senised tulemused näitavad meile, et peame olema enda ja teiste suhtes kriitilisemad ja küsima endalt iga kord, kui mõnele tööle pilgu peale viskame, kas järeldused on liiga head, et need võiksid tõele vastata. Kui see nii on, siis tuleb kohe neid kahte näitajat vaadata. Sotsiaalteadustes tuleb lisaks tähelepanu pöörata ka sellele, kas tulemusi saab üldistada tervele populatsioonile ja/või teistele kultuuridele.
Kui vajakajäämisi näeme, peame uurimuse üksipulgi lahti võtma. Mu enda poeg on meditsiiniteadlane ja kui näen tema töid lugedes, et tulemused pole nii kindlad, kui need olla võiksid, palun teha tal täiendavaid katseid.
Kas aga avalik aadrilaskmine ehk eelnevate uurimuste vajakajäämistele ja kehvale korratavusele tähelepanu juhtimine ei heida varju teadusele tervikuna?
M. J.: Julgen arvata, et katsete süstemaatiline kordamine ei aita meil ainult paremini hinnata, kui suur osa teadustulemustest paika peavad, vaid kasvatab ka teadlaste motivatsiooni avaldada kindlamatel alustel seisvaid uurimusi, milles tehtavad järeldused on nii täpsed kui võimalik.
Õhu puhastamise vajadusele viitab ka Ho.
T.-H. H.: Nähes, mis maailmas toimub – mitte ainult psühholoogias ja otsustamisteaduses, vaid ka statistikas, IT-s, loodusteadustes – võib prognoosida, et tulemuste avaldamiskünnis tõuseb. Tegu on teaduse jaoks positiivse ilminguga. Eriti praegu, kuna oleme minevikus pead liiva alla peitnud. Peaksime seda tervitama... loodan, et selle tulemusel suudetakse 10-20 aasta pärast katseid edukalt korrata tänasest märgatavalt sagedamini.
Laiemas plaanis näeme julgustavaid märke, et endine vaade on muutumas. Võib öelda, et retsenseerimisprotsess on muutunud mõnes mõttes tundlikumaks.
Ent kas teadusajakirjad saaksid seda veelgi julgustada?
M. v A.: Ajakirjade vaatenurgast võiks olla üks lahendus, et mõningate eranditega võetakse vastu ja saadetakse retsenseerijatele edasi vaid töid, mille valimi suurus ületab eelsätestatud piiri või on selge põhjendus, miks see väike on. Meil on tegelikult kasutada meetod – võimsuse analüüs, mis võimaldab meil kindlaks teha, kas valimi suurus on üleüldse keskmise efekti avaldumiseks piisav. See võiks olla üks avaldamiskriteerium.
Muidugi väiksemate ja vaesemate uurimisasutuste puhul võib tekkida probleem, et nad ei saa endale lihtsalt suuremaid uurimisaluste rühmi lubada. See võib kõlada natukene julmana, aga kui neil pole võimalik head teadust teha, siis miks seda üleüldse teha?
Ho nii range poleks.
T.-H. H.: On tõsi, et peaksime püüdma teha katseid suuremate valimitega, kuid peame olema realistlikud. Mõnikord peame tegema kompromisse. Kui suur valim pole praktilistel põhjustel võimalik, kuid potentsiaalsed tulemused on olulised, siis võiks see olla siiski lubatav
Nii van Assen, Ho ja Johannesson viitavad lootustandva märgina, et teadlased pole aastatega oma kriitikameelt ja analüüsivõimet kaotanud. Kui paluda neil näiteks ennustada, milliste katsete tulemusi korrata ei suuda, teevad nad seda suhteliselt täpselt, olles siiski selle suhtes mõnevõrra optimislikud.