E-riigi arhitekt: ükski infosüsteem pole kunagi valmis ega lõpuni turvaline

Ükski infosüsteem ei ole kunagi lõplikult valmis ja suuri infosüsteeme ei tasu ehitada korraga, sest see võtab palju aega, ei vasta täielikult meie vajadustele ning vajab lõpuks korraga väljavahetamist, millest tuleb lihtsalt palju segadust.
Ükski infosüsteem ei ole kunagi lõplikult valmis ja suuri infosüsteeme ei tasu ehitada korraga, sest see võtab palju aega, ei vasta täielikult meie vajadustele ning vajab lõpuks korraga väljavahetamist, millest tuleb lihtsalt palju segadust. Autor/allikas: Simson Petrol / Unsplash / Creative Commons

Hiljaaegu tuli uudis, et sotsiaalministeeriumi juurde luuakse riigifirma, mis hakkab müüma eestlaste digiandmeid. Meie andmete müük ei alga siiski homme ega käi nagu poes: piiks-piiks ja andmed üle leti kätte, selgitab Priit Raspel, ekspert ja Eesti IT-süsteemide arhitekt, kelle ees seisab väljakutse ehitada infosüsteem, millel mainitud riigifirma tegevus tugineb.

Priit Raspel on ligi 40 aastat ehitanud üles erinevaid IT-süsteeme Eesti riigile ja ettevõtetele ning andnud neid teadmisi edasi ülikoolides tudengitele. Praegu töötab ta Tervise ja Heaolu Infosüsteemide ehk TEHIKu andmeanalüüsi osakonna juhatajana. ERR Novaator kasutas võimalust uurida temalt nii loodava riigifirma IT-süsteemide toimimise kui ka näiteks meie andmete turvalisuse kohta.

Neli mõtet intervjuust:

  1. Sotsiaalministeeriumi loodav riigiettevõte ei hakka andmeid omama, vaid viima kokku erinevates kohtades olevaid andmeid vastavalt vajadusele. Kuid selleni, mil reaalselt andmete kasutamise võimalust müüma hakatakse, läheb veel palju aega.
  2. Ükski infosüsteem ei ole kunagi lõplikult valmis ja suuri infosüsteeme ei tasu ehitada korraga vaid komponent haaval, sest tervikuna ehitamine võtab palju aega ja süsteemi valmimise hetkeks on meie vajadused juba muutuda jõudnud ning vajab lõpuks korraga väljavahetamist, millest tuleb lihtsalt palju segadust.
  3. Ükski infosüsteem pole lõpuni turvaline ning nii nagu alati leidub inimesi, kes tahaksid meile koju vargile tulla, leidub ka inimesi, kes tahaksid varastada andmeid.
  4. Tulevikus jagunevad inimesed kaheks: need, kes juhivad arvuteid ja need, keda juhivad arvutid. Robotite ja tehnoloogiaga tekitatakse inimesed, kes ei oska asju teha, sest mingi süsteem on tema eest kogu aeg ülesanded ära teinud.

Erinevatel riigi ametkondadel on väga palju erinevaid infosüsteeme. Kui räägime nüüd sotsiaalministeeriumi juurde loodavast riigifirmast, kas on võimalik nendes süsteemides olevad andmed panna niimoodi kokku, et neid andmeid saaks ka müüa, nagu selle riigifirma puhul on räägitud?

No selle müügini on veel natuke aega. Andmeid, mida müüa, on küll, aga see ei tähenda, et võtame inimeste andmed ja hakkame neid müüma. Kõige selle puhul tuleb teada, et see müümine ei käi nagu poes, üle leti – piiks-piiks raha tuli ja võtke andmed. Alustuseks tuleb aru saada, millised andmed üldse on.

Esiteks on isikustatud andmed. Need on andmed, kus inimene on tuvastatav teiste andmete kaudu. Näiteks minu aadress ja geolokatsiooni koordinaadid on andmed, mille järgi on võimalik öelda kus ma elan või töötan. Neid nimetatakse ka aimeandmeteks, kus pole küll nime küljes, kuid mille kaudu on inimene näiteks 80-protsendiliselt tuvastatav. Nende andmete avalikuks tegemine hakkab üldjuhul inimese huve riivama.

Teiseks on pseudonümiseeritud andmed. Pseudonümiseeritud andmete puhul tuleb alati juurde lisada teine sõna: hägustamine. Näiteks ei öelda, milline automark sellele isikule kuulub, vaid näiteks märksõna "eriline auto". Pseudonümiseerimise puhul asendatakse inimesega seostatavad andmed mingisuguse koodiga. Selle andmeliigi puhul on väga väikese tõenäosusega võimalik viia kokku konkreetne inimene nende andmetega.

Kolmandaks on agregeeritud andmed. Nende puhul pannakse sarnaste tunnustega inimesed, näiteks samas vanusevahemikus olevad mehed, kokku ühte rühma. Mitme inimese andmed on ühe rea peale kokku pandud ja sõltuvalt valimi suurusest ei ole agregeeritud andmete puhul võimalik viia andmeid kokku konkreetse inimesega.

Neljandaks on anonümiseeritud andmed. Need mulle üldse ei meeldi, sest nendega pole midagi teha, aga nendest räägitakse järjest rohkem. See tähendab, et andmetest on välja roogitud kõik, mis mind ja andmeid võimaldaks kokku viia. Niimoodi on saadud graanulandmed, mis ei seostu mitte kuidagi ja mille põhjal näiteks teadlastel pole mitte midagi uurida.

Räägime nüüd sellest, kuidas neid andmeid välja antakse.

Kui andmed on piisava üldistusega agregeeritud, siis neid võiks anda välja avaandmetena. Aga kui lähme pseudonümiseeritud andmete juurde, siis neid ei tohiks niimoodi anda välja.

Samas tahaksime, et teadlased ja analüütikud uuriksid neid andmeid ja et meil andmetest kasu oleks. Kuidas see uurimine käib?

Võetakse inimeste pseudonümiseeritud andmed ja otsitakse sealt pealt mustreid. Leitakse näiteks, et minusugune 50–60-aastane mees, sellise ametiga, istuva eluviisiga, selliste terviseriskidega, ja kui nüüd paneme sinna kõrvale raviandmed, siis võime teada saada, kuidas teda ravida, sest me teame, millised on sarnaste inimeste puhul olnud edukad ja mis ebaedukad juhtumid.

Kui see on tehtud, saab andmetest võtta välja need parameetrid ning panna asemele päris inimesed ja öelda arstidele, et tegelege nende inimestega.

Samamoodi võiks öelda sotsiaaltöötajatele. Vaatame natuke laiemalt: inimese kogu elukaart. Paneme kõrvuti tema tervise-, töö- ja sotsiaalandmed. Nii saame teada, et kui 55-aastane mees kuskil väikeasulas lastakse töölt lahti, siis suure tõenäosusega läheb tal närv mustaks, hakkab jooma, siis läheb tervis nässu, siis jääb kodutuks, satub sotsiaaltoetustele. Me saame selliseid asju ette näha ja kui me teame, et nii juhtuma hakkab, saame teha ennetustööd.

Me saame teha teadlikumaid otsuseid ja tegevusi, millel on reaalne mõju ja mis hoiavad raha valesse kohta paigutamise eest.

Aga praegu ei saa selliselt neid andmeid kätte ja praegu ongi vaja teha keskkond, millest teadlased saaksid neid andmeid kätte. Teadlastele loodaks selles keskkonas oma eraldatud ja  turvalised tööpiirkonnad, mida nimetatakse tihti ka sand boxideks ehk siis Liivakastideks" kus teadlased oma töögruppidega "mängida " saavad. See on turvaline keskkond, kuhu me tõstame andmekogumid, mille teadlased tellivad – enne on nad muidugi öelnud, milleks nad neid kasutavad, mis on oodatavad tulemused jne – meie ütleme, mida me vastu tahame. Teadlased teevad teadustöid ja võib-olla teenivad ka raha selle pealt, aga riik tahab saad vastu mustreid, tervikpilti, et seda oma rahva hüvanguks kasutada.

Selles keskkonnas olevate andmete kasutamise logid tulevad meile analüüsida. Nii saame teada, kas neid andmeid kasutati nii, nagu oli kokku lepitud. Kui selgub, et nii ei kasutata, on see nende jaoks viimane uurimine. Ei saa välistada, et keegi ei riku kokkulepet, aga enamasti kui inimesed teavad, mis on tagajärjed, siis nad ei eksi.

Kuidas kõik see Euroopa Liidu isikuandmete kaitse üldmääruse ehk GDPRiga kokku läheb?

GDPRis on kaks "auku", mis on täiesti mõistlikud, miks võib inimese andmeid kasutada. Esimene on, et luba küsimata võib kasutada juhul, kui selleks on seaduslik põhjus ehk muidu ei saaks riik seda teenust pakkuda. Teine on see, et inimene lubab.

Mis tähendab, et kui riik tahab meie andmetega muuta tervishoiuteenust paremaks, siis ta võib seda teha ka ilma luba küsimata?

Nii ja naa, mina sellele liimile ei läheks. Põhimõtteliselt jah, aga riigil endal ei ole teadlasi.

Aga teadlased töötavad ülikoolides, mis pakuvad avalik-õiguslikku teenust.

Jah, aga teadlastel ei tee isikustatud uuringuid, teadlased uurivad massandmeid. Kui läheme konkreetset inimest ravima, alles siis on tegu teenuse pakkumisega.

Näide võiks olla, et teadlased teevad mustriuuringud terviseandmete põhjal. Sinna kõrvale küsitakse ka geeniandmed, mis on jälle pseudonümiseeritud. Siis kontrollitakse, kas sellised mustrid on kuidagi geenidega seotud, arvutatakse välja teatud profiilid ja siis vaadatakse, et sellise profiiliga inimesed on riskirühmas. Seejärel saab hakata inimesi konkreetselt kutsuma arsti juurde.

Kas see on see, mida Geenivaramu on teinud kõrge geneetilise kolesteroolitaseme riskiga ja rinnavähiriskiga inimeste puhul?

Just nimelt, aga see on tunduvalt laiem. Nemad tegelevad peamiselt terviseandmetega, aga lõppkokkuvõttes oleks vaja kõik andmed kokku viia. Võtame näiteks selle, millise sissetulekuga rahvastikugrupid on käinud saamas hambaravi. Siin on korraga aja nii tervise- kui maksuameti andmeid.

Selleks, et need andmed kõik omavahel kokku viia, ongi vaja riigifirmat. Riigifirma teab, kellel millised andmed on, ta teab, milliseid protseduurireegleid tuleb täita, teab, kuidas andmeid omavahel kokku viia, sest kõik andmed ei ole ka riigi käes. Näiteks tervishoiu infosüsteemis ei ole keskselt kõiki andmeid sünkroniseeritud, need on tervishoiuteenuse osutajate, näiteks PERHi või ITK käes.

Aga kui tulevad uurijad, kes küsivad näiteks mikrobioloogia andmeid, siis riigifirma teab, kelle käest küsida, palkab eksperdid, kes vaatavad, et andmed lähevad välja turvaliselt.

Seda kõike hakkab riigifirma tegema, see on kompetentsikeskus. See ei hakka pakkuma andmeid – tulge võtke, mida soovite. See riigifirma ei hakka omama andmeid, ta toob selguse, mida me andmetega teeme.

Meie TEHIKus loome selle jaoks keskkonna ning riigifirma aitab erinevad andmed viia kokku pseudonümiseeritud kujul. Kui meie pseudonümiseerime andmed TEHIKus ja Haigekassa pseudonümiseerib enda andmed, siis kui need andmed tuleksid kokku TEHIKusse, siis meie ju teaksime, kelle andmetega on tegu, seda aga teha ei tohi. Selleks ongi vaja riigifirmat, kuna nii ei ole enam võimalik viia andmeid tagasi kokku isikutega.

Tuleme privaatsuse juurest turvalisuse juurde. Me elasime just üle ID-kaardi kriisi, mis näitas meile, et üks nõrk lüli süsteemis võib meile minna maksma miljoneid eurosid.

Ukselukku tuleb ka vahel vahetada. Keegi ei imesta selle üle, et me aegajalt lähme üle uuele tehnoloogiale, eriti näiteks ukseluku puhul. Aga IT-süsteemide osas arvavad kõik, et need peavad olema igavesti raudkindlad – aga need ei ole. Ükskõik, kas majal on lukud ja turvasüsteemid või neid ei ole, ikka varastatakse. Sama on IT süsteemidega.

Kui mõtleme ID-kaardi peale, siis mis oleks saanud, kui see oleks murtud? Ainus, mis oleks pihta saanud on Eesti ID-kaardi maine. Mitte midagi ei oleks muutunud. Oletame, et keegi oleks tahtnud võltsida valimisi. Niipea, kui võltsimine tuvastatakse, valimised tühistatakse.

Digiallkirja võltsimine ei erine kuidagi tavalise allkirja võltsimisest, mida on maailmas tehtud väga palju. Inimesed arvavad, et kui võltsitakse digiallkirja, siis on see midagi hullemat kui on tavalise allkirja võltsimine. Ei ole!

Kui digiallkiri võltsitakse, saab teha politseisse avalduse, politsei uurib seda ja kohus saab lasta allkirja tühistada. Digiallkirja võltsimise tuvastamine võib olla tunduvalt lihtsam, sest võib olla võimalik tõestada, et seal, kus allkiri anti, ei ole ma sel ajal üldse viibinudki. Paberil antud allkirjaga on seda palju keerulisem teha.

See, et me digimaailma kolisime, ei tähenda, et kurikaeltega võitlus lõppeb. Lihtsalt vahendid ja meetodid on teised. Vältida tuleb massilist võltsimist, sest üksiku allkirja võltsimine ei tähenda mitte midagi. Keegi kaotab oma vara – jah, juhtub. Aga oluliselt sagedamini juhtub see sellepärast, et keegi petab inimese psühholoogiliselt ära. Neid juhtumeid on palju rohkem.

Ma küsin oma tudengitelt sageli küsimust, kas e-hääletamine on turvaline, kas te eelistate e-hääletamist? Enamik tänapäeval tõstab käe ikkagi e-ID poolt. Siis ma esitan neile küsimuse, kumba on lihtsam võltsida, kas pabervalimisi või e-hääletamist?

Kui paljudel on ligipääs paberil antud häältele? Igas jaoskonnas on see võimalik, see on hajutatud üle Eesti ja isegi kaameratega jälgitakse, ei suuda keegi igat minutit üle vaadata – keegi ikka võib kuskil mingi nihverduse teha. Samas suvaline inimene e-hääletamise tulemusi ei võltsi. Samal ajal e-hääletamise tulemused on massiivsemad, kuid neid saame jälgida logimiste jmt kaudu. Kui kuskilt kummalistest kohtadest hakkab tulema hääli, näiteks samalt IP-aadressilt tuleb korraga väga palju hääli või samad inimesed hääletavad mitmest kohast, siis lõpuks e-hääletus tühistatakse. Jah, me kaotame niimoodi e-valimiste maines, aga see on turvaline viis välistada võltsimist.    

Küsitakse, miks teised riigid ei tee e-valimisi? Vastus on väga lihtne: neil ei ole e-ID-d, neil ei ole registreid ja nende riikide kodanikud ei ole elektrooniliselt tuvastatavad. Üsna hiljuti oli USA-s föderaalselt tuvastatav vaid 60 protsenti inimestest. See tähendab, et kohalik šerif teab sind ja see on kõik.

Aga me ei räägi ainult digiallkirja andmisest, me räägime ka sellest, et oleme väga suure hulga oma väga isiklikke andmeid usaldanud riigile.

Vot see on hoopis teine asi!

Vahe tuleb sisse selles, kas keegi murrab ära luku ja varastab kapist 50 eurot ja viinapudeli, või keegi varastab ära minu väga delikaatsed isikuandmed.

Maailm on läinud väga ekshibitsionistlikuks. Hommikul ostab inimene endale mobiiltelefoni, tõmbab sinna Facebooki, Instagrami, Twitteri. Siis käib kõikjal ringi, pildistab ja jagab.

Ja ärgem unustagem, et paneb kõigele juurde geolokatsiooni.

Just, tal on veel ka rakendus, mis kogu aeg jagab kõigile, kus ta on. Ja siis õhtul läheb tõmbab tinamütsi pähe ning läheb Vabaduse väljakule privaatsust nõudma. No millest me siin räägime?! Privaatsus on isikliku käitumise küsimus.

Aga andmed, mis ongi väga delikaatsed ja mis muudavad mind kompromiteeritavaks. Näiteks tuleb kuskilt tervise- või geeniandmetest välja, et minu ema ei olegi üldse minu ema.

Sellised asjad on alati välja tulnud. Lõpuni ei olegi võimalik end kaitsta. Internetis oleme paremini äratuntavad, kui me oleme päris maailmas. Mitte keegi ei saa öelda, et mingi asi on lõpuni turvaline. Me peame oma käitumises lihtsalt võtma seda arvesse.

Lähme üksikisiku tasandilt tagasi riigi tasandile, kellele me usaldame väga palju andmeid ka tahtmata.

Pangale näiteks – kui tahad laenu saada, pead talle paratamatult andma palju andmeid. Riigiga on täpselt sama moodi. Tahad riigi käest teenust saada, siis pead teatud hulga andmeid avaldama, kuigi riik teab tänapäeval ise juba päris palju. Mõnikord inimesed küsivad, et riik ju teab neid andmeid, miks neid veel kord küsitakse.

Infosüsteemid on lõpmatus arengus ja nad ei saa kunagi valmis, me pole isegi poole peal veel. See tähendab, et meil ei ole nii palju raha, et kõike korraga teha. Kui mingi link infosüsteemis on veel tegemata, siis peamegi neid andmeid mitu korda küsima.

Riik peab neid andmeid hoidma väga kiivalt sellepärast, et need on tema kodanike andmed. Aga siin ei saa jällegi mingit 100-protsendilist garantiid anda, et keegi kuskilt ei tule murra sisse.

Võtame, et riik käitub heaperemehelikult meie andmetega, aga kas riik on ka piisavalt tark, et tellida süsteeme, mis töötavad?

See on üks osa minu tööst, ka sellega ma töötan Tervise ja Heaolu Infosüsteemide Keskuses (TEHIK). Ütleme niimoodi, et me teeme oma parima selle raha eest, mis meil on. Raha ei ole lõputult ja me peame valima, mida teeme. Alles hiljaaegu oli uudis, et üks parteijuht kritiseeris, miks ei ole digiregistratuuri. Digiregistratuur läheb varsti pilooti. Mis me siis räägime, kui isegi parteijuhid ei tea, mis toimub?! Digiregistratuur ei lähe ka kohe maksimumina välja, käima pannakse järk-järgult.

Kogu aeg peab valima, mida sa teed. Tihti küsitakse, miks meil seda või teist ei ole?! Sellepärast ei ole, et ei ole inimesi, kes seda teeksid. Meil on väga tublid IT-firmad, kes ülesandeid täidavad, aga paha lugu on selles, et neil on tööd nii palju, nad lihtsalt ei jaksa.

Kui teeme rahvusvahelise hanke, siis nemad ei taju jälle siinset konteksti. Nad ei tea midagi X-teest või Eesti seadusandlusest. Järelikult peame mõtlema, kuidas olemasolevate vahenditega hakkama saame ja mida jõuame ära teha.

Kui me räägime mõnest süsteemist, mis on läinud aia taha, siis seal ongi tehtud alguses analüüs ja püütud siis kogu süsteem valmis ehitada. Sedasi ei saa. Tänapäeval lihtsalt tuleb teha nii, et paned mingi tüki käima, lased ta kasutusse, siis paned järgmise tüki juurde. Süsteem pannaksegi tükkidest kokku ja ei tohigi teha suurt süsteemi korraga. Kui teed suure süsteemi, siis pead hakkama seda suurt süsteemi korraga välja vahetama.

Kas see juhtus ka SKAISiga?

No näiteks juhtus ka SKAISiga, aga SKAIS ei ole ainus. SKAISi kõige suurem mure oli, et tehti uut suurt SKAISi. Ma ei olnud ise selle arenduse juures otseselt, aga seal oli juba üsna algusest peale tunnuseid, et ta ei õnnestu.

Kas ma saan õigesti aru, et meie riik tellib asju, mis oleksid karbis valmis nagu iPhone ja siis paranduste saamiseks oodatakse uut mudelit?

Nii ja naa. Eks teda järjest arendatakse ikka komponent haaval. Aga varem pole infosüsteeme niimoodi ehitatud ja kes meist lõpuni tark on.

Oletame, et me esitaksime majale samasuguse tellimuse, nagu esitatakse tellimusi infosüsteemidele, näiteks Rahvusringhääling tahaks endale uut maja ja esitate tellimuse: tahame, et meie majal oleks talviti 12 korrust ja suviti viis korrust, oleks 3–5 liftišahti ja vastavalt vajadusele sõidaks liftišahtides 2–7 lifti ja stuudiod oleksid tööpäeviti hoovi pool ja pühapäeviti tänava pool. Infosüsteeme niimoodi tellitaksegi.

Aga kas infosüsteemi on võimalik niimoodi ehitada?

On, sest me ei ehita reaalset maja. Aga sellise tegemise juures võib vigu tekkida, sest kui sa ehitad dünaamilist süsteemi, mida on võimalik ehitada nii või naa, siis vigade tekkimise võimalus on ka suurem.

Aga kui me paljusid asju algusest peale arvesse võtame, siis hoiame lõpuks raha kokku sellega, et me ei pea hakkama iga asja juurde planeerima.

Ma ei tea, kust need jutud tulevad, kuid räägitakse, et riik ei tea, mida ta tellib – nii palju kui mina olen riigis näinud infotehnoloogia juhte, siis ebakompetentseid mina ei ole kohanud. Riik on just viimastel aastatel väga palju vaeva näinud sellega, et palgata väga häid spetsialiste. Sellega on muidugi hakanud probleeme tekkima ka. IT-sektoril, kes tahaksid lihtsamalt raha teenida, ei lähe see enam nii lihtsalt, sest on tekkinud võrdväärne seltskond, kes suudab aru saada, mida talle pakutakse ja suudab ka tellida. Oluline on, et kunagi ei tellitaks asja, millest sa aru ei saa.

Öelge üks mõte tuleviku kohta.

Tulevikus jagunevad inimesed kaheks: need, kes juhivad arvuteid ja need, keda juhivad arvutid. Nende inimeste hulk, kes arvavad, et arvutid peaksid neid juhtima, kuigi nad ei väljenda seda niimoodi, kasvab järjest. Inimlike oskuste hulk kaob ära suuresti tänu sellele, et robotite ja tehisintellekti juhitud lahendused tulevad meie igapäevaellu.

Ma toon näite: lennukiga lendamine muutub üha närvesöövamaks, sest see inimene, kes lennukit juhib ei pruugi lennukiga lennata osata. Mitte, et ta poleks õppinud, vaid tal ei ole piisavalt praktikat, sest robotid lendavad tema eest. Ja kui ta peaks võtma lennuki juhtimise üle, on tal oluliselt vähem kogemust kui sel robotil.

Sama on isejuhitvate autodega, milles inimene peab võtma juhtimise kriitilisel hetkel üle. Aga öelge, mis sellest inimesest kasu on, kui ta ei ole kunagi autot juhtinud?

Robotite ja tehnoloogiaga tekitatakse inimesed, kes ei oska asju teha, sest mingi süsteem on tema eest kogu aeg ülesanded ära teinud.

Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: