Geeniproovist müüdavate andmeteni on väga pikk tee
Tuntud e-riigi ja maailmas ühe esinduslikuma geenipangaga riigina võiks Eestil olla suur võimekus teha raha andmete müügiga. Jah, see on võimalik, kuid just vastutus e-riigina tähendab, et peame olema ka eeskujuks selles, kuidas andmetega ümber käiakse. "Uudishimu tippkeskus" milliste teadlaste tööd on vaja, et meie geeniprooviks antud verest saaksid lõpuks andmed arsti töölaual.
Oletame, et ühe noore naise geeniandmetes torkab silma kõrge kolesteroolitaseme risk. Perearsti juures antud vereproovi järgi ongi tal kolesteroolitase ebatavaliselt kõrge, mis tähendab, et tal on suur oht saada varakult infarkt. Mida varem see inimene üles leitakse ja mida kiiremini saab ta ennetavat ravi, seda tõenäolisem on, et ta ei jäägi haigeks. Just selliste geenidoonoritega ongi geenivaramu koos arstidega viimastel aastatel tegelenud.
Õigupoolest on sellise inimese ülesleidmiseks vaja geenitehnoloogide, bioinformaatikute, eetikaspetsialistide, andmearhitektide ja arstide pikaajalist põhjalikku tööd ning koostööd.
Hari on natuke sarnane geenikiibile. Autor: Uudishimu tippkeskus/ERR
Tartu Ülikooli genoomika instituudi asedirektor Tõnu Esko võtab appi pesuharja ning selgitab selle abil abil, mida teevad geeniteadlased. Inimese vereproovist kätte saadud DNA järjendatakse ning saadud andmed pannakse geenikiibile, mida Esko võrdlebki harjaga. Sellisel puhul on geeniandmed arvulisel kujul, sellises vormis, millega arvuti oskab midagi peale hakata. Mõistagi ei tee arvuti üksi midagi. Vaja on andmeteadlasi – analüütikuid ja bioinformaatikuid.
Terviseandmete "söödavaks tegemine"
Sulev Reisberg on bioinformaatik ning töötab projektijuhina masinõppe ja andmeteaduse kompetentsikeskuses (STACC). Tema huvi on erinevatest terviseinfosüsteemidest saada kätte andmed, et neid oleks võimalik kasutada teadustöös ning selle kaudu ka viia need lõpuks perearsti lauale või aidata teha meie tervishoiusüsteemi tõhusamaks.
Võtame ühe näite. Oletame, et inimene jääb haigeks, kohe tõsiselt. Patsient käib erinevate arstide juures ja selle haiguskorra kohta loovad need arstid kümmekond epikriisi. Ühe patsiendi selle korra raviks selline haiguse kulu jäädvustamine sobib, aga teha nende andmete pealt statistikat või kasutada nende peal masinõpet – selleks on vaja juba teistsuguseid lahendusi. See omakorda tähendab, et esmalt on vaja andmed viia standardiseeritud ehk ühetaolisele kujule, küllalt sageli pole need meie e-tervises või muudes terviseandmetes sugugi standardsed.
Sulev Reisberg Autor: Uudishimu tippkeskus/ERR
Terviseandmete omapära on see, et neis on palju teksti. Analüüsiks oleks parem, et oleks andmed. Teksti on palju isegi andmebaasides ja selleks tuleb masinal aru saada tekstist. Meditsiinitekst on eriline veel sellegi poolest, et 13 protsenti sellest on lühendeid, millest tuleb eraldi osata aru saada ja samad lühendid tähendavad samu asju. Ja lahenduste arendamisega, mis võimaldaksid andmeid standardiseerida ning algoritmidega analüüsida, Sulev Reisberg tegelebki.
Suurte ja mitmetahuliste andmete analüüs tugineb statistikal. "Meil on vaja suurandmete analüüsi meetodeid. Kõige suuremad võidud ongi tulnud just geeniandmete poole pealt," selgitas Reisberg.
"Keeruline on see, et kõik, mida ma teen, seda ei saa ma ise viia kliinilisse praktikasse. Koostöö Eesti Geenivaramuga on andnud võimaluse teha midagi, millel on otsene mõju patsiendile."
Terviseandmed on lisaks epikriisidele ka retseptid, raviandmed ja laboriandmed analüüsiandmed. Reisberg on teinud koostööd ka haigekassaga, kelle huvi oli esmalt saada teada, et kui suur on keskmine ravijuhu hind ja kuidas seda arvutada. "See oli haigekassa probleem, aga selle probleemi taustal oleme lahendanud teisi probleeme. Esmalt oli vaja saada ülevaade, kelle peale kui palju tegelikult kulub."
Nii suutsidki STACCi andmeanalüütikud luua keskkonna, milles on visuaalselt välja toodud, millises vanusegrupis, millise tervisekäitumisega, milliste muude risikifaktoritega inimestel, millised ravijuhu maksumused kujunevad. Teisisõnu võib taoliste lahenduste abil prognoosida, millised kulutused seisavad haigekassal ees ühtede või teiste ühiskonnagruppide peale. Veel enam: see võimaldab ette näha kulutusi, kuid võimaldab ka ennetavalt sekkuda ning muutuste kaudu hoopis vähendada kulutusi.
Andmemüügi ettevõte DigInEst
STACC töötab välja algoritme, mis suudavad andmetest välja lugeda, millised geenid inimesel on ja milliseid haigusriske nende põhjal võib välja arvutada.
Mida rohkem geeniteadlased teavad erinevate geenide koosmõjust, avaldumisest ja funktsioonidest, seda rohkem on võimalik arvutiteadlastel, bioinformaatikutel nende andmete analüüsimiseks luua algoritme. Näiteks on olemas algoritmid, mis sõeluvad välja diabeedi, rinnavähi või ravimite mõju konkreetsele inimesele lähtuvalt tema geeniandmetest.
Nende algoritmide abil koostatakse konkreetse inimese kohta raportid, mis omakorda jõuavad patsiendi ja arstini TEHIKU ehk Tervise ja Heaolu Infosüsteemide Keskuse kaudu. Nende õlul lasub ka tulevase riigiettevõtte DigInEst andmesüsteemide väljatöötamine. See ettevõte peaks tulevikus suutma meie väga väärtuslikke terviseandmeid tõesti ka müüa, kuid ennekõike alles siis, kui loodud on süsteemid, mis tagavad inimeste privaatsuse ning andmete turvalisuse.
Kuidas see käib, saab vaadata "Uudishimu tippkeskusest", mis on ETVs eetris neljapäeval kell 22.05, ERR Novaatori saate täispikka saadet kohe praegu.
Toimetaja: Marju Himma