Geeniandmetest kasu lõikamist võivad hõlbustada tehisgenoomid

Kuigi maailmas on järjestatud viimase 20 aastaga miljonite inimeste genoome, pidurdab pärilikkusaine mõtestamist ja sellele tuginevaid teadusuuringuid mure geenidoonorite isikuandmete paljastamise ees. Rühm teadlasi on loonud nüüd probleemi lahendamiseks Eesti biopanga andmetele toetudes terve rea päris genoomile sarnanevaid digitaalseid DNA-lõike.
Maailmas järjestatavate inimgenoomide hulk on viimastel aastatel hüppeliselt kasvanud. Prognooside põhjal tekib järgmise kümnendi jooksul nende järjestamisel igal aastal 2 000 000 kuni 40 000 000 terabaidi jagu andmeid. Tekkivatest suurandmetest kasu lõikavate inimeste arv on aga piiratud. Nende laiemalt avalikuks tegemine kujutab isegi nende anonüümseks muutmisel eetiliste dilemmade miinivälja.
"Biopankade andmetele ligipääsemiseks on tarvis läbida pikk taotlusprotsess ja nõuab sageli enda pikemaks ajaks konkreetse projektiga sidumist. See kujutab teadlastele tõsist barjääri, ent on samas vältimatu. Me ei saa igaühele niisama ligipääsu anda," tõdes Burak Yelmen, Tartu Ülikooli moodsa populatsioonigeneetika nooremteadur. Yelmen otsis kolleegidega takistuse kõrvaldamiseks abi masinõppest.

Viimase aja moesõnaks saanud lahendus võimaldab treenida suurte andmehulkade peal tehisnärvivõrke, mis suudavad pärast nende treenimist luua sarnaseid andmeid. Piltlikult saab lasta neil tutvuda tuhandete kassipiltidega, misjärel oskavad need tekitada ise pilte kassidest, keda tegelikult maailmas pole.
"Mõningate mööndustega olid enamike meie analüüside põhjal sel viisil saadud genoomilõigud täpselt samasugused kui päris genoomid," kinnitas nooremteadur. Esialgsete analüüside põhjal ei saa neid kokku viia nende loomiseks aluseks võetud inimestega.
Päris genoome oli võimalik tehisgenoomidega siiski eristada. Prooviks n-ö värvis töörühm genoomi euroopa, aasia ja aafrika päritolu lõigud eri tooni. Yelmen leidis, et kuigi närvivõrkude loodud genoomilõikudes oli nende osakaal võrreldav Eesti biopangas leitavate genoomidega, oli tehislike DNA-lõikude keskmine pikkus veidi lühem. Töörühm loodab leida erinevuse põhjuse täiendavate analüüsidega.
Alusandmed loevad
Genoomika ühe olulise komistuskivina on suuremosa järjestatud genoomiga inimestest maailmas on pärit Euroopast või Põhja-Ameerikast, keskmisest jõukamad ja parema haridustasemega.
Yelmeni sõnul piisas päris genoome meenutava tulemuse saamiseks aga juba sellest, kui aluseks võeti tuhatkond genoomi. Teisisõnu saaks kasutada meetodit isegi alaesindatud rahvastikurühmade puhul. "Muidugi peame olema seejuures väga ettevaatlikud, et esindatud oleks kogu inimgenoomis nähtav mitmekesisus. Kui me seda ei tee, on tehisgenoomidel põhinevad analüüsid kiivas, täpselt samamoodi nagu päris genoomide puhul," sõnas Burak Yelmen.
Paralleeli võib tuua algoritmiga, mis joonistab näopiltide põhjal inimestele kehasid. Algoritmi juhuslike veebis leitavate piltide põhjal treenides oleks meestel sageli seljas ülikonnad, mil naised oleks napimas riietuses. Geeniandmeid kasutavates analüüsides võiks tähendada taoline kallutatus muu hulgas, et parasjagu väljatöötatav ravim mõnedel rahvastikurühmadel ei tööta või tekitab neil tõsiseid kõrvaltoimeid.
Lähitulevik
Esialgu on lasknud Yelmen kolleegidega närvivõrkudel luua inimeste täisgenoomist vaid lühemaid jupikesi. Põhjus peitub pigem arvutusvõimsuses kui kasutatavas algoritmis. "Järgmise sammuna tahame minna välja täisgenoomi peale. Ühe võimaliku lahendusena tekitame hulga lühemaid lõike ja õmbleme need seejärel kokku, mis on tehniliselt mõnevõrra keerukam, kui pealiskaudselt paista võib," ütles teadur.
Samuti kavatseb Yelmen täiendavalt kontrollida, ega loodud digitaalsete genoomide põhjal pole võimalik treenimiseks kasutatud genoome kuidagi rekonstrueerida. Pikas plaanis on ta huvitatud ka tehislike fenotüüpide loomisest.
Tehisgenoomide põhjal lihast ja luust tehisinimeste valmistamise pärast ei pea kartma veel nii pea. "Meie andmed on puhtalt digitaalsed. Nende baasilt tehisinimeste loomine on praegu ulme ja õige mitu sammu tulevikus," kinnitas Burak Yelmen.
Uurimus ilmus ajakirjas PLOS Genetics.