Eesti teadlased ennustavad pärilikke tunnuseid täpsemalt kui kunagi varem
On teada, et DNA järjestuse põhjal saab hinnata inimese pikkust, juuksevärvi, erinevaid haigusriske ja teisi pärilikke tunnuseid. Aga kui täpselt? Eesti teadlaste uuringu tulemused ütlevad, et see on võimalik isegi kuni 90-protsendilise täpsusega. Seesugune teadmine võib personaalmeditsiini potentsiaali haigusriskide ennustamiseks seada sootuks uude valgusesse.
Ajakirjas Nature Communications ilmus kahe Eesti teadlase ja nende kolleegide artikkel, mis just seda teemat käsitleb. Kaspar Märtens ja Leopold Parts Tartu ülikoolist koos kolleegidega uurisid pärilike tunnuste prognoosimist pärmseente näitel.
Õigupoolest uurisid nad täpsemalt pagaripärmilt (Saccharomyces cerevisiae) kogutud genotüübi andmeid, et nõnda saada vastus küsimusele millise täpsusega suudavad meie ja meie lähisugulaste geeniandmed aidata meil ennustada näiteks pärilikke haigusriske. Pärmseened on geneetikas küllaltki tavaline mudelorganism, sest sellel katseid teha on kordades odavam kui näiteks inimeste geeniandmetele tuginedes. Nii oli Märtensi ja Partsi kolleegidel võimalik korraga uurida rohkem kui 7000 pärmseene geeniandmeid. Kasutades mitmeid statistilisi ja masinõppe meetodeid, saavutasid teadlased seni teadaolevalt kõige täpsemad pärilike tunnuste prognoosid.
Täpsust aitas saavutada DNA järjestuse kombineerimine kaht tüüpi informatsiooniga. Ühest küljest kipuvad pikkadel vanematel olema pikad lapsed. Seega, kui meil on teada kellegi ema ja isa pikkus, siis ainuüksi selle põhjal on võimalik väga hästi prognoosida selle indiviidi pikkust. Sama kehtib pea kõigi pärilike tunnuste jaoks: kui nende jaoks on teada lähisugulaste andmed, on võimalik päris suure täpsusega prognoosida ka konkreetse inimese pärilikke tunnuseid.
Teisest küljest on paljud tunnused omavahel seotud. Heledad juuksed ja sinised silmad esinevad tihti koos, nagu ka näiteks ülekaalulisus ja suhkrutõbi. Teades inimese kohta palju infot, näiteks tervet elektroonilist haiguslugu, saab selliste seoste arvessevõtmisel täpsemini ennustada huvipakkuvat haigusriski. Nii saavutatigi kõige paremad tulemused lähisugulaste andmete ja teiste tunnuste kombineerimise teel.
„Olulisimat rolli mängisid statistika ja masinõppe meetodid, mille abil on võimalik kombineerida genoomi info, lähisugulaste andmed ning konkreetse indiviidi kohta olemasolev info,“ selgitab Kaspar Märtens andmete modelleerimise tähtsust nende uurimistöös. Selle uuringu üks järeldustest oli, et lähisugulaste andmetel on oluline roll kõrge prognoositäpsuse saavutamisel. Uuringu teine oluline järeldus on see, et prognoositäpsusel ei ole fundamentaalset ülempiiri - kuigi inimese tunnuseid pole siiani sama hästi ennustatud, on ideaalilähedane täpsus elusolendite jaoks võimalik.
Tõsi, uuringu aluseks olnud pärmseened on oma geneetikalt palju lihtsamad kui inimesed. Seetõttu võib küsida, kui palju on pärmseentele tuginedes võimalik teha samasuguseid üldistusi meie tervisele. Küll aga leiab Kaspar Märtens, et kui inimeste genoomiandmeid kombineerida näiteks e-terviseloo ja lähisugulaste andmetega, on võimalik mõne päriliku tunnuse nagu diabeeti haigestumise tõenäosust prognoosida täpsemini kui seni.
Eesti Geenivaramusse on kogutud enam kui 50 000 inimese geneetiline informatsioon ehk genotüüp. Inimese DNA sekveneerimine ehk järjendamine on aastate jooksul muutunud küll odavamaks, kuid on siiski küllalt kulukas: ühe inimese andmete järjendamine maksab ligikaudu 1000 eurot. USAs on plaanis lähiaastatel järjendada miljon inimest, Eestis järjendab Geenivaramu juba praegu 2500 inimese andmed. Seega personaalmeditsiiniks tarviliku inimese genotüübiliste andmete saamine on väga kallis. Riskide ennustamise kulude kokkuhoiuks oleks üks võimalik viis koguda iga inimese kohta vähem geeniandmeid, ning kasutada ära nii tema haigusloo kui ka sugulaste taustainfot.
Mida see välja töötatud mudel aga igapäevapraktikas muudab? „Suur küsimus ongi, kuidas personaalmeditsiin paremini töötaks, kuidas saaksime igaühele öelda, millised on tema haigusriskid,“ võtab Märtens kokku. Siin on lisaks geneetikale väga oluline roll matemaatikal, statistikal ja informaatikal.
Seega Nature Communicationsis ilmunud mudeli alusel on võimalik personaalmeditsiinis teha pärilike haigusriskide kohta täpne arvutus. Ning sellest teadmisest lähtuvalt on võimalik inimesel pöörata tähelepanu oma tervisekäitumisele – toituda teist moodi, vältida suitsetamist või käia sagedamini tervisekontrollis.
Kaspar Märtens ütleb aga ka seda, et nende uuringu tulemuste oluline leid – võimalus kasutada prognoosimiseks lähisugulaste andmeid – osutab ehk hoopis vajadusele koguda ulatuslikumalt ja süsteemselt andmeid vanemate ja õdede-vendade kohta, ning neid riskide määramisel ja diagnoosil arvesse võtta.
Jälgides e-tervise andmeid ka lähisugulaste kohta, kõrvutades võimalusel ka genotüübiga, on võimalik pärilikke haigusriske väga täpselt prognoosida.
Milliseid võimalusi peidab endas statistika? Statistika aitab andmetest tuvastada mustreid ning seeläbi vastata meile huvipakkuvatele küsimustele. Näiteks prognoosimisel on vaja andmetest leida kasulikke seoseid, mille arvessevõtmine aitaks prognoositäpsust suurendada. Siin võib kasu olla ka masinõppe algoritmidest, mis suudavad ise andmetest olulisi seoseid õppida.
Statistilisi mudeleid kasutatakse paljudes valdkondades. Lisaks erinevatele rakendustele bioteadustes, nagu geeniandmete põhjal haigusriskide või eluea prognoosimine, aga ka sportlaste dopingutarvitamise testimine, on tõenäosuslikel mudelitel veel oluline roll tehisintellekti valdkonnas. Näiteks suudavad need mudelid aru saada, mida on pildil kujutatud, ning isegi kirjeldada seda grammatiliselt korrektsete lausetega. Piltide automaatne mõistmine on abiks vaegnägijatele ning isesõitvade autode valmistamisel.
Värskelt ilmunud artikkel oli kirjutatud tuginedes Kaspar Märtensi magistritööle, kus ta uuris Leopold Partsi juhendamisel erinevaid mudeliklasse pärilike tunnuste prognoosimiseks ning võrdles nende ennustustäpsust.
Töö valmimise ajal õppis Kaspar Märtens Tartu ülikoolis matemaatilist statistikat ning oli Arvutiteaduse instituudi bioinformaatika uurimisrühma BIIT liige. Praegu jätkab ta õpinguid statistika doktorantuuriprogrammis Oxfordi ülikoolis. Leopold Parts jagab oma teadustöö aega Tartu ülikooli Arvutiteaduse instituudi ning Sangeri Instituudi vahel.