Teadlased hoiatavad kasvava geeniandmete hulga eest

Bioloogidest ja arvutiteadlastest koosnev töörühm tõdeb värskes analüüsis, et geeniandmete hulk kasvab järgmisel kümnendil hüppeliselt, ületades nii aastas Twitterisse lisanduvate säutsude kui YouTube'i videote kogumahtu. Teadlased pelgavad, et teadusharu pole suurte andmemahtudega tegelemiseks valmis.
Loodus on suutnud leida kõigi elusolendite ehitamiseks tarvilike instruktsioonide talletamiseks äärmiselt säästliku viisi. Ühest grammist DNAst piisab arvutuste kohaselt 2,2 petabaidi andmete talletamiseks, mis on võrreldav 30 aasta pikkuse katkematu HD-kvaliteediga filmi mahuga. DNA-le jäädvustatud andmete kõvakettale jäädvustamine ei pruugi seeläbi üha rohkemate inimgenoomide täieliku järjestamise valguses olla väga sirgjooneline
Kuigi teoreetiliselt kulub ühe inimgenoomi talletamiseks umbes 700 MB jagu andmemahtu, tehakse DNA sekveneerimisel paratamatult vigu. Sama genoomi tuleb seeläbi lugeda mitmeid kordi ja vähemalt ajutiselt tallel hoida iga loetud järjestust. Tüüpiliselt on andmete hulk ühe genoomi kohta 30 korda suurem. Illinoisi ülikooli teadlaste hinnangul on juba täna talletatavate geeniandmete kogumaht 25 petabaiti, mis pole aastas YouTube'i laaditavate videote mahuga võrreldes siiski veel kuigi aukartustäratav.
Ent Gene Robinson toob kolleegidega välja, et kogutavate geeniandmete hulk on viimastel aastatel kahekordistunud iga seitsme kuuga. Sarnast trendi võib näha töörühma sõnul oodata ka lähitulevikus. Aastaks 2025 on ennustuste kohaselt järjestatud 100 miljoni kuni kahe miljardi inimese genoom. Autorid järeldavad seetõttu, et teadustaristu peaks suutma talletada vähemalt 2-40 eksabaidi ehk 2000-40 000 petabaidi jagu geeniandmeid. Töörühm lisab, et sellele lisanduvad andmete liigutamise ja analüüsimisega seonduvad probleemid.
Sarnaste andmehulkadega peavad toime tulema ka astronoomid ja osakestefüüsikud. Teadusharud on leevendanud probleemi ulatust andmete vahetult pärast kogumist toimuva esmase töötlusega, mis võimaldab suure osa toorandmetest kõrvale heita, lihtsustades nende edasist analüüsi ja laiali jaotamist. Ent kõiki teiste teadusharude poolt leitud lahendusi ei saa töörühma hinnangul üks-üheselt üle võtta. Seeläbi nõuaks kasvav teadusandmete hulk tervikuna nende sõnul kõikehõlmavamat lahendust.
Uurimus ilmus ajakirjas PLOS Biology.
Toimetaja: Jaan-Juhan Oidermaa