Ostuandmete anonüümsus on illusioon
Ilmselt valdav enamik inimesi soovib, et vähemalt mõned nende krediitkaardiga tehtud ostud jääksid ainult nende enda teada. Samas on taolised andmed kolmandatele osapooltele äärmiselt ihaldusväärsed. Ajakirjas Science ilmunud uuring näitab, et nende jagamine poleks hea mõte isegi nende anonüümseks muutmise järel. Isiku taasidentifitseerimiseks piisab vaid käputäiest ostudest.
„Me peaksime tõsiselt järele mõtlema, mida me andmekaitsest rääkides mõtleme. Traditsiooniline anonüümsuse mudel ei ole lihtsalt suurte metaandmete hulkade puhul sobilik,“ nentis uurimuse juhtivautor Yves-Alexandre de Montjoye. Massachusettsi tehnoloogiainstituudi arvutiteadlane uuris kolleegidega 1,1 miljoni nimetuks jääva Majanduskoostöö ja Arengu Organisatsiooni liikmesriigi krediitkaardi omaniku traditsioonilises mõttes anonümiseeritud ostuandmeid, mis olid kogutud kolme kuu jooksul.
Andmekomplekt sisaldas teavet ostusumma, poe nime ja ostu tegemise aja kohta. Samas olid sellest eemaldatud ostu teinud isiku nimi, arvenumber ja teised ilmselged identifitseerimist võimaldavad andmekillud. „Sellele vaatamata suutsime isiku rahajälje 90-protsendilise kindlusega üles võtta ainult nelja ostu tegemise paiga ja kuupäeva põhjal. See tähendab, et saame seejärel andmekomplektist hankida infot ka kõigi tema ülejäänud ostude kohta,“ märkis de Montjoye. Ostusumma lisamine kasvatas rahajälje unikaalsust 22 protsendi võrra.
Unikaalset jälge on võimalik kombineerida näiteks sotsiaalvõrgustikest hangitud andmetega. Jälge aitab nimega kokku viia juba pelgalt Instagramis rippuv pilt restoranis käimisest või säuts uuest telefonist või kingadest. Mõistagi, mida sagedamini inimesed oma tegemistest virtuaalruumis teada annavad, seda kergemini on võimalik seda teha.
Märkimisväärset abi ei näi olevat isegi andmekomplektide lahutusvõime kahandamisest. Prooviks eemaldas de Montjoye töörühm andmekomplektist konkreetse poe nime ja kasutas üldisemat geograafilist piirkonda. Täpne ostukuupäev asendati 15 päeva pikkuse perioodiga. De Montjoye leidis, et see langetas jälje unikaalsust 15 protsendini. Ent seda oli võimalik hõlpsasti taas tõsta rohkemate andmepunktide kasutamisega. Isiku 80-protsendilise kindlusega tuvastamine nõudis vaid kümmet ostu. Kõige selgema jälje jätsid naised ja paremal elujärjel olevad inimesed.
Jüri või Mari kõigi minevikus tehtud ostude kohta teabe hankimiseks piisab vaid ligipääsust anonümiseeritud andmetele ja mõnest nende ostukäitumise kohta tehtud tähelepanekust. Näiteks sellest, et Jüri või Mari käis 23. septembril kingapoes ja järgmisel päeval restoranis. Sõltuvalt andmehulga suurusest tegi seda loetud arv inimesi või isegi ainult Mari või Jüri.
Uurimuse tulemused on heas vastavuses mõne aasta eest ilmunud tööga, milles võttis de Montjoye vaatluse alla mobiiltelefonide metaandmed. Helistajate anonüümsuse pani löögi alla juba teave selle kohta, kust kõnesid tehti. Toona suutis arvutiteadlane kõneandmeid uurides isikuid identifitseerida 95-protsendilise täpsusega. „Teatud omadustega metaandmeid näib olevat juba olemuslikult raskem anonüümseks muuta,“ nentis de Montjoye.
Suurte andmehulkade uurimisest loodetakse kasu mitmetes erinevates eluvaldkondades, alates haiguste vastu võitlemisest, linnaplaneerimisest ja liiklusvoogude reguleerimisest lõpetades traditsioonilisema teadustööga. Sarnaselt saavad inimeste käitumisharjumuste paremast tundmisest kasu lõigata suurkorporatsioonid. Isegi kui nende uurimiseks kasutatakse traditsioonilises mõttes anonüümseks muudetud andmeid.
De Montjoye töö vihjab aga, et metaandmete analüüsimisel pole absoluutset anonüümsust olemas ja praegustest riiklikest privaatsuspoliitikatest jääb metaandmete puhul vajaka. Teatud demograafilise rühma üldisemate käitumisharjumuste asemel oleks võimalik suurettevõtetel heita pilk üksikisikutele. Finantsandmetega võrdväärselt unikaalsed on töörühma hinnangul ka näiteks veebisirvimise ajalugu ja kõneandmed. See, kui mugavalt inimesed end sellega seonduvalt tunnevad, on juba igaühe enda otsustada.