Tehisintellekt jäi teaduskirjandusse jõudnud valede märkamisega hätta
Teadusartikleid lugeda oskav Ettevõte Meta keelemudel Galactica tekitas teadlastes esialgu palju elevust. Peagi selgus aga, et see ei suuda eristada teaduskirjandusse jõudnud eksimusi ja valet tõestest väidetest, vahendab R2 tehnikakommentaaris Kristjan Port.
Maailmas on eelmisest sajandist praeguseni avaldanud vähemalt ühe teadusartikli umbes 35 miljonit teadlast. Lihtsamalt mõeldes võiks teadlase tööks pidada millegi avastamist, mida jagatakse siis teistega neile avalike kirju kirjutades. Oleks see vaid nii lihtne!
Teadlased on inimesed, kellest on kasu mitmel moel peale puhtanäolise asjade avastamise. Maailma toimimises valitud üksikasjadesse põhjalikumalt pühendunud eriala esindajatelt oodatakse ka uusi mõtteid ja arusaamist edendavaid arutelusid. Neidki pannakse kirja ja saadetakse laiali. Seetõttu peetakse kirjutamist üheks kesksemaks teadlasetöö mõõdikuks.
Mainitud 35 miljon teadlast on sajandi jooksul publitseerinud vähemalt 120 miljon teadusartiklit enam kui 34 000 teadusajakirjas. Kirjutamise tempo tõusis pööraselt ehk nelja-viiekordistus viimase mõnekümne aasta jooksul. Mitte avastuste kasvu, vaid niinimetatud Goodharti seaduse tõttu. Seaduspäras tõdetakse, et kui mõni mõõdik muutub eesmärgiks, pole see enam hea mõõdik. Artikleid toodetakse mitte niivõrd teaduse, kuivõrd teadlaseks olemise pärast.
Pole ju sugugi mitte ootamatu, et teadus on ka ise uurinud publitseerimise mõõdiku sobivust. Tulemus pole just kiita. Mõned teadlased avaldavad aastas üle seitsmekümne artikli ja mõnel artiklil võib olla autoreid üle 500. Seetõttu pole maksumaksja jaoks selge, kas mõne autorlus seisneb teksti lisatud komas või koolonis.
Samuti jääb nõnda segaseks, kas suure tootlikkusega inimene on tõesti geenius või mängib sotsiaalset publitseerimismängu, milles jagab ühe uurimistöö mõtted jupikaupa mitmesse artiklisse. Seetõttu sisaldavad artiklid ise palju kordusi ja muud intellektuaalset ballasti.
Kõige halvema tulemusena sageneb teaduspublikatsioonides küüniline mahhineerimine teineteise sisuvaeste tööde tsiteerimisest, andmete statistilise manipuleerimise ja puhtakujulise valetamiseni välja. Aastas avaldatakse umbes 6–7 miljonit uut teadusartiklit. Tekstipõhiste tulemusmõõdikute tõttu kannatab teadus madala kvaliteediga teabeuputuse all.
Probleem on ammu teada, millele püüdis omal nutikal moel tähelepanu tõmmata 1996. aastal füüsik Alan Sokal. Juhtumit teatakse Sokali afäärina. Ta avaldas keerulise pealkirjaga artikli, millesse lisas palju tsitaate, keerulisi lauseid ja mõjusaid sõnu. Autori sõnum vajas neid sõnu ohtralt, näitlikustamaks, kuidas üks mõttetu, aga vormiliselt teaduslikuna näiv tekst läheb täie ette.
Kirjastaja võttis selle töösse ja lasi seda teistel teadlastel eelretsenseerida, mis läks õnneks. Artikkel avaldati ning seda isegi tsiteeriti, kuni selgus tõde, vallandus skandaal ja lubati edaspidi olla korralikumad. See jäi vaid tühjaks lubaduseks. Kui 1980. aastal avaldasid teadlased alla miljoni teadustöö, siis 2014. aastal avaldati rekordilised seitse miljon teadusartiklit ja samal ajal kasvas ebaausate juhtumite arv.
Teadust teevad inimesed ja inimestel on teatud puudused. Selle loomuliku jätkuarendusena otsitakse lahendusteks ideid tehisintellektist. Värskeimat näidet demonstreeris hiljuti Meta. Ühismeediast välja kasvanud virtuaalse tulevikustrateegia hulka kuuluvad ka virtuaalsed teadlased. Tegelased, kes või mis suudavad läbi analüüsida kõik maailma teadusartiklid. Enne kaugema nägemuse tegelikkuseks saamist oli vaja luua teadusartikleid lugeda oskav tehnoloogia, mille nimeks sai Galactica.
Tegemist on paljudele juba tuttava inimese koostatud teksti mõistva ja seda moodustavate rakenduste nagu GPT-3 või BLOOM konkurendiga. Loojate väitel selle eelisega, et Galacticat koolitati mõistma just teadustekste. Erinevates testides ongi Galactica näidanud konkurentidest paremaid tulemusi.
Tarkvara pakutakse vabavarana, et aidata teadlastel navigeerida avaldatud teadusliku teabe rohkuses. Galactica aitab leida tsitaate, koostada teadusartiklitest kokkuvõtteid, lahendada matemaatikaülesandeid ja täita muid ülesandeid, mis aitavad teadlasi uurimistöös ja tööde kirjutamisel. Vähemalt lubatakse nõnda keelemudeli tutvustuses.
Galactica läbis suurepäraselt kõik võrdlustestid ja ootused selle kaasamisest reaalsesse teadustöösse tekitas märgatavat elevust. Avalikkusele tutvumiseks kättesaadavaks tehtud demo suutis vastu pidada vaid kaks päeva. Galactica 120 miljardit parameetrit kontrolliv "teaduse suur keelemudel" ei suutnud päris elu pakutavast tuvastada erinevust tõe ja vale vahel.
Tegemist ei ole pisikese demo veaga, vaid põhimõttelise probleemiga. Ilukirjanduslikus tekstis pole tõeste väidete tuvastamine probleemiks. Mõni ebatavalisem lausekonstruktsioon võib isegi omada kunstilist väärtust. Teaduses puhastatakse seevastu mõte sõnalisest ilust, et maailmast õigesti aru saada.
Kaua tehtud ja pikalt oodatud inimkeelt mõistma loodud lahendus ei saanud aga aru, millal sellele valetatakse. Meta arendajad lisasid tutvustavasse materjali ettenägelikult, et "Keelemudelite, isegi suurte, kvaliteetsete andmetega koolitatud mudelite, nagu Galactica, tõese või usaldusväärse väljundi jaoks pole garantiid."
Teaduse jaoks on ebaõnnestumised õpetlikud. Igast ebaõnnestumisest kogutakse kasulikke vihjeid, et teha järgmisel korral paremini, antud juhul paremini inimest lugeda oskavat masinat. See algatab võistluse, kas inimese alatust on võimalik võita?
Jäägu seda küsimust kaunistama Isaac Newtoni tõdemus, et ta mõistab arvutada taevakehade liikumist, aga mitte inimeste hullust.
Esmaspäevast neljapäevani võib Kristjan Porti tehnoloogiakommentaari kuulda Raadio 2 saates "Portaal".
Toimetaja: Jaan-Juhan Oidermaa
Allikas: "Portaal"