Tehisintellekti lai levik ähvardab teha teadusele karuteene
Iseõppivad algoritmid võimaldavad leida suurandmetest uudseid ja ootamatuid seoseid, mis võivad jääda inimsilmale haaramatuks. Pimesi tehisintellekti usaldamine võib teha teaduse arengule aga pikas plaanis karuteene, hoiatab meditsiinistatistik Generva Allen.
Mainitud algoritme kasutatakse näiteks erinevate geenivariantide ja haiguse sümptomite vaheliste seoste otsimiseks. Neid omakorda saab rakendada muu hulgas täppismeditsiinis tõhusama ravi määramiseks. "Probleem on aga selles, et sellised algoritmid jõuavad enamasti juba olemuslikult mingi positiivse tulemuseni ja teevad erinevalt teadlastest mingi ennustuse," selgitas Rice'i Ülikooli meditsiinistatistik.
Kui mingi seos on juba leitud, on sellest kasu lõikamine aga loomulik. Neid kasutavad teadlased on aga nupukad. "Loo või õigustuse, miks peaksid jagunema näiteks teatud geenid kindlatesse rühmadesse, saab alati hiljem välja mõelda," lisas Allen.
Nn avastusliku iseloomuga uuringute puhul pole see eriline probleem. Nende eesmärk ongi jõuda uute ideedeni, mida panna hiljem põhjalikumalt proovile. Probleem tekib, kui saadud tulemust esitletakse juba eelnevalt sõnastatud oletuse testimisena. Teisalt võib napi rahastuse tingimustes kulutama teadlasi raha uuringutele, millest polegi midagi loota ehk juhatada neid valejälgedele.
Lisaks ei esinda andmebaasid reaalsust kunagi selle täies hiilguses. Erinevad uurimisrühmad võivad jõuda seetõttu eri järeldustele töötades isegi muljetavaldava suurusega andmebaasidega. "Veale jõutakse tihti jälile alles siis, kui keegi teeb uue uuringu, mis põhineb veel suuremal hulgal andmetel," viitas Allen.
Meditsiinistatistik lisas, et masinõppega igapäevasemalt tegelevad inimesed on hakanud probleemi olemasolu juba mõistma. Ülejäänud kogukondadeni jõuab see teatava viivisega. Masinõppele ei toetu vaid meditsiini vallas tegutsevad teadlased, vaid ka näiteks bioloogid, astronoomid ja ühiskonnateadlased.
Enne puuduste laiemat tunnistamist ähvardab see võimendada paarikümne aasta eest alanud nn replikatsioonikriisi. Teadlsed on avastanud, et uurimustes kirjeldatavaid katseid rida-realt korrata üritades ei jõuta sageli algselt esitletud tulemusteni.
See ei tähenda automaatselt, et need uuringud on valed, kuid neis nähtud mõju ei pruugi olla sedavõrd suur, kui algselt väideti. Sarnaselt ei tuleks võtta Alleni sõnul usaldada tehisintellekti tehtud avastusi pimesi või võtta neid kohe tõe pähe.
Kõik pole meditsiinistatistiku hinnangul kadunud. Replikatsioonikriisi mõju leevendamiseks on mitmeid võimalusi. Näiteks oleks tuleviku huvides mõtet ressursse koondada ja kasutada sisendina võimalikult suuri andmestikke. Tõsi, see ei pruugi olla kuigi odav ning võtta rohkem aega, mis langetaks teadlaste üldist produktiivsust.
Sama olulisena tuleks lihvida analüüsil kasutatavaid algoritme. Ühe kindla tulemuse tagastamise asemel võiksid olla need nüansirikkamad. "Sisuliselt võiksid need öelda, et nad on mingite seoste osas kindlamad, aga teiste osas on mitte nii väga," märkis Allen. Kriitilisemalt võiksid suhtuda saadud tulemustesse ka teadlased. Näiteks võiksid nad lisada alusandmetesse kunstlikke andmepunkte ja vaadata, kui palju need tulemusi muudavad.
Allen tutvustas algselt oma mõttekäiku Ameerika Teaduse Edendamise Ühingu konverentsil.