Bioinformaatik: tehisintellekt ei jäta töötuks ühtegi tõsist teadlast
Viimastel aastatel hüppeliselt arenenud tehisintellekt võimaldab usaldada üha suurema osa igavamapoolest teadustööst masinatele, leiab Euroopa Molekulaarbioloogia Laboratooriumi asedirektor Ewan Birney. Andmeteaduse põhialuseid tundmata pole võimalik aga biomeditsiinis enam läbi lüüa.
Inimestele meeldib kurta, kuidas keegi teadust ei rahasta, ent peab ka paika, et igal aastal tekkiva teadusinfo hulk on juba praegu üüratu. Ainuüksi biomeditsiini valdkonnas ilmus enne koroonapandeemiat aastas üle 1,5 miljoni teadustöö. Kuidas teadlased selle info ühtseks narratiiviks põimimisega hakkama saavad? Igal õhtul paari uuringu öökapile jätmisest ilmselt enam ei piisa.
Meil on andmed, info ja teadmus. Võime lisada sinna uurimistöö näol neljanda kihina narratiivi. On oluline mõista, et bioloogia valdkonnas peavad ajahambale vastu andmed ja teadmus. Teadustööd on kasulikud ja üliolulised selgitamaks, kuidas üks või teine teadlane konkreetse tulemuseni jõudis, kuid andmed on palju olulisemad. Meie teadmiste integreerimiseks ei peaks lugema uuringuid, vaid vaatama korraga otsa mitmete uuringute käigus kogutud andmetele.
Kas bioloogid tulevad sellega toime? Jah, kuid selleks pead olema sa uut tüüpi bioloog, kelle sekka ma ka end ise arvan – arvutusbioloog või ka biomatemaatik. Nii kutsuti meid enne seda, kui andmeteadus seksikaks muutus. Sisuliselt oleme bioloogiale keskenduvad andmeteadlased.
Teatud nurgast vaadates näib olevat muutunud teaduse väljund ise suurandmeteks, mida saadavad kõik nendega seotud probleemid.
Jah. Viis, kuidas me asju mõõdame, muutub seeläbi üha olulisemaks. Samal ajal nihkub aga teaduse tegemine üha rohkem arvutiekraani taha.
Bioloogias tõukab horisonti edasi kaks suurt valdkonda – üks on DNA ja selle produktid ehk kokku genoomika. Teine on pildistamine – kolmemõõtmeliste struktuuride kuvamine röntgenkiirte, elektronide või valgusosakeste abil. Kui inimene mikroskoopiale mõtleb, kujutavad paljud ette koolis nähtud valgusmikroskoope, mille puhul oli andmekogumisseade inimsilm. Elektrone ja suure energiaga footoneid ei näe inimesed aga juba eos. Sellisel juhul pole meil arvutitest üldse pääsu.
Seega on meil vaja mõõtmisi ja eksperimente ikka teha, kuid üha rohkem teadusest sünnib arvutis.
Hiljutises intervjuus märkis ettevõtte Deepmind asutaja ja tegevjuht Demis Hassabis, et tehisintellekt tõotab muuta olemuslikult seda, kuidas teadust tehakse ja eriliselt võiks lõigata sellest kasu biomeditsiin. Kui tuua näitena AlphaFold, ettevõtte poolt valkude kuju ennustamiseks kasutatud algoritmi, pole need vaid tühjad sõnad.
Tehisintellekt on bioloogidele ideaalne tööriist. Teoreetilise füüsika vallas on elegantset matemaatikat rohkem, bioloogias on vaja süsteeme, mis suudavad andmetest õppida ja esitada seda tõhusal viisil. Oleme kasutanud bioloogias tehisintellekti vähemalt kümme aastat ja tuule tiibadesse on saanud see viimasel viiel aastal.
AlphaFold oli selles vallas märkimisväärne läbimurre. Valkude voltimise probleem oli vaevanud meid alates 1960. aastatest ja seda olid üritanud lahendada mitmed väga nutikad inimesed.
Pealtnäha on tegu lihtsa füüsikaülesandega, mille seljatamiseks piisab vaid piisavalt võimsast arvutist, kui panna kirja vaid see, kuidas erinevad aatomid käituvad. Tuli välja, et meie teadmistest selleks siiski ei piisanud, kuigi valgud teavad meie kehas pea momentaalselt, millise kuju need võtma peavad.
Muidugi on oluline rõhutada, et AlphaFold petab natukene. Loodus valib alati sellise aminohapete keti, mis end iseeneslikult kolmemõõtmeliseks voldib. Sellega Deepmindi programm hakkama ei saanud. AlphaFold õppis, kuidas voltida umbes 10–20 evolutsiooniliselt seotud aminohapete järjestust, mis on sisuliselt analoogne probleem. Selle tulemusel suutis see lisaks inimeste ja hiirte kehas esinevatele valkudele ennustada, kuidas näevad välja ligi 200 miljonit looduses esinevat valku.
Seejuures on oluline, et programm teab ise, millised selle ennustused on tipptasemel ja millised kehvapoolsed. Hea arvutisüsteem ei peaks tegema ainult ennustusi, vaid ütleb meile ka seda, kui usaldusväärsed need on. Meil oli seega väga hea meel, et Deepmind otsustas hakata tegema koostööd meie EMBL-i haruga.
Kahtlustan, et pärast selle valgukataloogi avaldamist küsis nii mõnigi bioloog endalt, miks raiskas ta doktorikraadi saamiseks viis aastat oma elust, üritades määrata ühe või teise valgu kuju. Samas kui tehisintellektil kulus sama tegemiseks vaid loetud tunnid või isegi minutid. Millega teadlased selles heas uus ilmas tegelema hakkavad?
Arvan, et nad ei tohiks sellest meeleheitesse sattuda. Arvutid teevad hästi seda, millega inimesed hästi toime ei tule, nagu skaleerimine jne. Millega arvutid hästi hakkama ei saa, sellega tulevad jällegi inimesed paremini toime. Neil on parem ettekujutus, mida järgmisena mõõta ja milliseid eksperimente üleüldse teha.
Praegu struktuuribioloogiaga tegelema hakkavat värsket doktorit ootab seeläbi AlphaFoldi tõttu rikkalikum maailm, sest suurem osa igavamapoolsemast tööst on nende eest juba ära tehtud. Just nagu tõus kergitab merel kõigi paate, on ka kõigi teadlaste lähtepunkt kõrgemale kerkinud. Saame hakata kohe küsima, kuidas kõik need valkude kujud niimoodi kokku sobituvad või mida mõni kindel valk teeb.
Selles pole midagi uut. Teaduse tegemine 1980. ja 1990. aastatel oli genoomikas ja struktuuribioloogia vallas palju lihtsam, kui oli see seda 1970. aastatel. Me lisame sellele lihtsalt uue tehnoloogilise kihi.
Värsked doktorid ei pea olema tehisintellekti vallas eksperdid, kuid peavad end arvutuslike tööriistade kasutamisel mugavalt tundma. Tuleviku bioloogiatudengitele tuleb õpetada piisavalt palju programmeerimist ja andmeteadust, et nad sellega hakkama saaksid. Sa ei saa olla enam hea bioloog, kui sa andmetöötlust ja statistikat pisutki ei mõista.
Seega võite lubada, et teadlased ei hakka töötuks jääma nagu teised valgekraed, kui iseõppivad algoritmid maailma vallutavad?
Ei-ei-ei! Tehisintellekt ei jäta kedagi töötuks, vaid parandab kõigi võimalusi. Üks mu südameradioloogist tuttav teeb ikka nalja, et tulevikus on kahte tüüpi radiolooge: need, kes kasutavad tehisintellekti abi, ja pensionile läinud radioloogid. Nende koguarv jääb aga samaks ja radioloog ametina kuhugi ei kao.
Struktuuribioloogia on üks valdkondadest, mis on ajalooliselt arvutusbioloogia arengut kannustanud. Mida annab tehisintellekt juurde selle teisele olulisele tugisambale – genoomikale?
Enne selle juurde tulemist tasub märkida, et tehisintellektist on saanud pildianalüüsi tavapärane osa. Seda nii organismi skaalal, näiteks südamest või ajust magnetresonantstomograafiga tehtud piltide uudistamisel, ent ka rakutasandil toimuva uurimiseks. Mõned mu kolleegid EMBL-i Heidelbergis on tehisintellekti sellel otstarbel kasutamises ülimalt vilunud.
Ent vastab tõele, et tehisintellekti kasutatakse üha enam ka genoomikas. See aitab tõlgendada meil DNA järjestuste ülesandeid. Same esitada seda tehisintellektile söödava probleemina.
Tuleb välja, et see on väga hea viis välja selgitada, kuidas meie keha toimib, millised geenid on avaldunud ja millised mitte jne. Paistab, et kui probleem tehisintellekti raamistikku hästi sobitub, suudad sa tõenäoliselt luua sellest tasemel mudeli. Kui sul on juba mudel, hakkad sa juba mõistma, kuidas see kõik toimib.
Millised omadused taolistel probleemidel olema peavad, et neid saaks taolisesse raamistikku pressida?
Kindlasti on sul vaja häid andmeid ja veel parem, kui need on avaandmed. Sellel on kaks põhjust. Esiteks pole tehisintellektiga tegelevad teadlased need, kes suudavad ise mõõtmisi teha. Alusandmed pärinevad kõikjalt üle maailma. Sul on vaja tervet ökosüsteemi.
Teiseks ilmestas AlphaFold eriti hästi, et sul pole tehisintellekti treenimiseks vaja vaid rohkelt andmeid, vaid ka eriilmelisi andmeid.
Sul on vaja teada, kuidas näeb sama bioloogiline probleem välja erinevates olukordades. Vastasel korral õpib tehisintellekt mingit probleemi küll hästi lahendama, ent sa ei saa selle olemuse kohta teada midagi uut ega põnevat. Selle ennetamiseks ja mitmekesisuse kindlustamiseks ongi avaandmed ülimalt olulised.
Oluline on veel üks oluline tahk, millel pole teadusega midagi pistmist, vaid see puudutab hoopis sotsioloogiat. Arvutiteaduse vallas korraldatakse probleemide lahendamiseks sageli võistlusi. Struktuuribioloogia vallas toimus valguvoltimise probleemi keskendunud CASP-i aastakümneid. Formaliseeritud võistlused annavad kõigile sama lähtepunkti ja võimalused. Kõik teavad ette, mille alusel mudeleid hinnatakse. Arvan, et seda lähenemist tuleks rakendada veelgi rohkem.
Genoomika juurde tulles kiidetakse Eesti geenivaramut seal tehtava teaduse ja selle ühiskonna kaasamise tõttu üle kogu maailma. Geeniteaduse pakutavaid võimalusi käsitledes jääb samas alati suhu kergelt mõru maik. End meditsiiniteaduse viimase sõnaga kursis hoida üritavad perearstid upuvad juba niigi pidevalt täienevasse infovoogu. Kuidas neid selle uue infokihi lisandudes endiselt veepeal hoida?
Arstid peavad hakkama seda kindlasti kasutama, ent see ei juhtu üleöö. Radioloogia on siinkohal taas hea näide. Saksa teadlane Wilhelm Röntgen kirjutas röntgenkiirte avastamisele järgnenud päeval kohe, et need võiks meditsiinis rakendust leida. Kulus aga 30 aastat, kuni neid laiemalt kasutama hakati. Osaliselt taandus see tehnoloogiale, kuid inimesed ei mõistnud lisaks täielikult kiirguse ka kiiritustõve olemust jne.
Ent seal juures oli ka sotsioloogiline komponent. Radioloogia meditsiini sulandumine võttis aega. Analoogia pole täiuslik, kuid peaksime mõtlema genoomikast samamoodi. See on hakanud juba saama paljudes riikides meditsiini loomulikuks osaks. Koostöö Eesti biopanga ja arstide vahel on selle hea näide. Kui riik on väike, ongi võimalik pea kõik sellega seotud arstid ja teadlased ühte konverentsisaali kokku tuua, et kõik oleks samal lainel.
Terve elanikkonna genotüpiseerimine on täiesti mõeldav. Seal juures peab olema aga eri valdkonna teadlastest koosnev töörühm ja ka arvutiteadlased, et muuta kogu see info arstidele hõlpsasti hoomatavaks ja arusaadavaks.
Ja seejuures ka hoolitsema, et teada-tuntud riskitegurid, nagu eluviis ja sotsiaalmajanduslik olukord, geneetiliste riskiskooride kõrval kuskile tahaplaanile ei vajuks?
Neid tuleb koos vaadata ja need pole üksteist välistavad. Kõik muu oleks hullumeelsus. Meditsiiniline genoomika ei hakka kunagi arste asendama, sest arvestada tuleb ka infoga, mida algoritmidest ei leia, ükskõik kui head need poleks. Arvestada tuleb lisaks patsientide arvamusega. Seal kõrval on majanduslik pool. Kui see ei mõjuta piisaval hulgal inimesi, pole sellest kasu.
Praeguseks teame kindlasti, et tasub end ära harvikhaiguste ravis. Neid võib esineda umbes kahel protsendil elanikkonnast, neist 20–30 protsenti on võimalik diagnoosida geenianalüüsiga.
On veel mitmeid, kuigi mitte sedavõrd tugevaid viiteid, et sellest on kasu näiteks rinnavähi ennetamisel ja südamehaiguste korral statiinravi määramisel. Kuigi selle mõju üksikinimesele ei pruugi olla kuigi suur, puudutab see sisuliselt tervelt elanikkonda. Seeläbi võivad end õigustada isegi võrdlemisi suured investeeringud. Tulevikus muutub ennetustöö ilmselt veelgi paremaks.
Viimaks on võimalik genoomianalüüsi kasutada vähi kirjeldamiseks. Histoloogia ei kao kuhugi, kuid sinna juurde geeniinfo vaatamine aitab mõnede vähidiagnooside puhul tunduvalt tõhusamat ravi määrata.
Eestit kiites oli viimati seal käies fantastiline näha, kuidas biopanga teadlased olid suutnud kokku tuua arvutiteadlased, arstid ja bioloogid. Võiksite olla seeläbi enesekindlad, et suudate sedasorti süsteemi toimima saada. See pole aga võimalik, kui juhtivad arstid seda omaks ei võta.
Seeläbi võiksime näha kaugemas tulevikus mudelit, mis kõik erinevad riskid kokku võtab ja reaalajas neid vastavalt meie käitumisele uuendab?
Jah, sinna suunas me liigume. Sotsiaalmajanduslikud tegurid pakuvad üldist tagatausta, geenid kujutavad kaarte, mis meile elu alguses jagati, kuid kõige olulisemad mõõtetulemused on ikkagi sinu hetkelised verenäitajad, kaal ning kas sa parasjagu suitsetad või alkoholi jood. Võime arvata, et kõik need riskid võiks kokku võtta tehisintellekt, kuid kõik muretsevad nende ületreenimise pärast. Me peame suutma teha ise üldistusi.
Enne kui kõik selle tehisintellekti hoolde usaldame, võiksime proovida 1970. aastate stiilis statistilisi mudeleid. Need toimivad. Ilmselt saame suurandmetega midagi senisest rohkem teha, kuid tuleb meeles pidada, et oluliste seoste leidmiseks on vaja kaugelt rohkem kui miljonit inimest. Ainult eestlastest selleks ei piisa – tarvis on sadu miljoneid inimesi.
Taaskord, mõned parimad arvutusbioloogid, kellega ma kohtunud olen, on pärit Eestist, näiteks Jaak Vilo ja Leopold Parts. Te võiksite selle üle uhked olla. Eesti vaatenurgast julgustaksin teid selle uue vooluga kaasa minema. Suur osa praegusest eduloost rajaneb 30 aasta eest tehtud otsustel ja teil on võimalus lõigata sellest kasu varem kui paljudes teistes riikides.
Ja selle viivisega arvestades üritama leida juba midagi uut...
Jah, alati tuleb olla teistest veidi ees. Seda saab aga vaid teha juhul, kui Tartu ja Tallinn on rahvusvahelisse teaduskogukonda kaasatud. Samal ajal ei tohiks aga unustada, et tehtavast teadustööst ka Eesti elanikele otseselt kasu oleks.
Ewan Birney on Euroopa Molekulaarbioloogia Laboratooriumi asedirektor, Euroopa Bioinformaatika Instituudi direktor ja Tartu Ülikooli audoktor. Muu hulgas mängis ta 2000. aastate alguses olulist rolli inimese genoomi järjestamise juures, oliselle arvutusliku analüüsi üks olulisi koordinaatoreid ja on olnud ka paljude paljude teiste genoomide analüüsi juures. Birney astub üles reedel ja laupäeval toimuval geeniteaduse konverentsil Geenifoorum.