Andmepõhine otsustamine ilma sotsiaalteadlasteta automatiseerib ebavõrdsuse
Teie aktiivsusmonitori logid, teie e-maksuamet, teie nutitelefoni kasutamise tulemusel tekitatud andmed, teie tegevused sotsiaalmeedias – kõik on kokku andmed, mis võimaldavad joonistada teist pildi, kuid kas tahaksite, et pelgalt nende andmete põhjal tehtaks teie elu ja tervist mõjutavaid otsuseid?
Viimased kümme aastat on loodetud, et kohe-kohe saame hakata ennustama sotsiaalseid protsesse ning lahendama ühiskonna probleeme algoritmide abil. Viimase viie aasta jooksul on aga sotsiaalteadlased jõudnud äratundmisele, et andmetega hakkavad kaasnema mõjud inimeste reaalsele elule ning pelgalt arvutamisega satub ohtu see, mis teeb ühiskonnast ühiskonna.
"Aga me ei saa ainult ennustada ilma konteksti teadmata," märgib Anu Masso, kes tänavu sügisel alustas Tallinna Tehnikaülikooli Ragnar Nurkse innovatsiooni ja valitsemise instituudi sotsiaalteaduslike suurandmete kaasprofessorina. Tema kirg on andmed, kuid ennekõike sotsiaalteadlase vaatepunktist. Üks asi on kasutada andmeid arvutamiseks, et teha nende arvutuste põhjal inimesi puudutavaid otsuseid, teine asi on mõelda nende arvutuste tagajärgedele inimeste eludele ja ühiskonnale tervikuna.
"Andmetel on selgelt ühiskondlikud tagajärjed ning kuna andmed on üha rohkem põimitud meie igapäevaste eludega, siis see hakkab meie reaalsust mõjutama," selgitab Masso.
Toome mõne näite, kus suurandmete põhine otsustamine meie reaalset elu võib mõjutada.
Isiklikud andmed aktiivsusmonitorist
Võtame näiteks aktiivsusmonitori. Selles on andmed teie liikumise kohta, teie füüsilise aktiivsuse kohta, une ja paljude teiste tervisenäitajate kohta. See kõik on ühendatud nutitelefoni ja internetiga. Viimased on otseselt seostatavad teie isikuga. Enamik aktiivsusmonitoride ja nutikellade tootjaid kogub teie andmeid, hoiavad ja jagavad neid teile teadmata riikides ning kasutavad ilmselt ka eesmärkidel, millest te teadlikki pole.
Oletame, et tahate teha elukindlustust. Teie kindlustusfirma nõuab välja teie aktiivsusmonitori andmed, et selle põhjal kalkuleerida teie kohta risk ning teha otsus, mis hinnaga teie elu kindlustada. Kas olete sellega nõus?
"Kus kaalub oht privaatsusele üles selle, et ma tean, et mitte ükski kindlustusfirma minuga kindlustuslepingut ei sõlmiks, kui ma seda kella kasutan?" arutleb Masso. See toobki andmetepõhise otsustamise juures mängu ühiskonnateadlased, kelle ülesanne on hoida ära andmetega diskrimineerimist ning inimlikkusest irduvaid andmepõhiseid otsuseid.
Algoritm otsustab, milline põgenik vastu võtta
Algoritme kasutatakse ka sotsiaalsete protsesside kontrollimiseks. Võtame näiteks Šveitsi ja USA, kus algoritmi abil kõrvutatakse põgeniku profiili ning elukoha profiili. Nende võrdluste alusel tehakse otsus, kuhu immigrandid võiksid elama asuda. Eesmärk on suurendada sisserännanute tööhõivet.
Sellise algoritmilise valitsemise käigus keskendutakse ennekõike raha kokkuhoiule, kuid see ei võta arvesse sotsiaalset ja kultuurilist tausta. Nii võibki juhtuda, et moslemi naine paigutatakse elama üksinda suurde linna, mis talle ei ole kultuuriliselt ega sotsiaalselt kuidagi vastuvõetav.
Masso ongi koos oma kolleegidega uurinud just nende inimeste vaadet otsuste osas, mida nende kohta on tehtud pelgalt andmete põhjal.
Oma uurimisrühmas koos Tayfun Kasapoglu ja Maris Männistega on Masso intervjueerinud nii ametnikke kui ka andmesubjekte ehk inimesi, kelle kohta andmetepõhiseid otsuseid tehakse. Rahvusvahelistes uuringutes on tulnud välja päris kohutavaid lugusid, nendib Masso.
Ühe markantsema näitena toob ta selle, kuidas rahvusvaheliselt kasutatakse automatiseeritud lahendusi riigi julgeoleku tagamisel. Võtame näiteks viisataotlused, kus pannakse kokku erinevad andmebaasid ning automatiseeritakse otsustusprotsessi. See peaks aitama välja valida need, kellele anda viisa, kellele mitte.
Sellist sotsiaalset selekteerimist kasutatakse eelkõige julgeolekukaalutlustel. Kui aga vaadata otsuseid lähemalt, on märgata, et sageli käib selle "julgeolekukaalutlusega" kaasas ka teatud etniline või rassiline eelistus, sobivus vastavasse ühiskonda ja tööturule. Uuringutele tuginedes on selline selektsioon andmete põhjal omane Euroopa riikidele, kus sageli andmete põhjal tehakse otsuseid selle kohta, kes kuulub Euroopasse või konkreetsesse riiki ja kes mitte.
Puhtalt andmetepõhise ja majandushuvist lähtuva valitsemise käigus on kerge eirata sotsiaalset ja kultuurilist konteksti, mis aga inimeste puhul tekitab nii pahameelt kui ka ühiskonnas suurt segadust. "Oht on see, et väga palju keskendutakse n-ö ennustamisele, nägemata kultuurilisi tagajärgi ja ohtusid."
Eestiski otsivad ministeeriumid võimalusi kuidas leida lahendusi ühiskondlikele probleemidele erinevate andmeregistrite ühendamise teel. Võib vaid fantaseerida, mida kõike annaks pelgalt Eesti riigiasutuste registrite ja mobiiliandmete põhjal inimese kohta otsustada. Automatiseeritud lahenduste rakendamine annab nii võimalusi lahenduste leidmiseks, aga sisaldavad ka endas mitmeid ohte.
Kuidas kujunevad etnilised eelarvamused andmesuhetes? Miks on algoritmid etniliselt, rassistlikult kallutatud?
Anu Massot huvitab näiteks, kuidas tekivad etnilised eelarvamused andmesuhetesse ehk mis põhjustel kalduvad näiteks Google'i otsingu algoritmid olema rassistliku sisuga. Võrrelge näiteks Google'i otsingu tulemusi teemadel female professional hair ning female unprofessional hair.
Rassistliku ja etniliselt kallutatud sisuga algoritmide taga on selgelt inimeste etnilised eelarvamused. Selles mõttes ei erine algoritmide loodud maailm palju varasemast – etnilised eelarvamused on ka varem olemas olnud. Kuid erinevus on selles, et kui rassistlik avaldus näost-näkku suhetes kahjustab ühte inimest, siis rassistlik algoritm võib kahjustada miljardeid inimesi, näiteks 2,27 miljardit Facebooki kasutajat.
Selline ebavõrdsuse automatiseerimine erineb varasematest rassismi vormidest oma mõju kiiruse ja ulatuse poolest. Oma uurimistöös keskendubki Masso praegu selliste eelarvamuste tekkimise tegurite selgitamisele.
Ta analüüsis võrdlevalt meediaandmeid koos Euroopa Sotsiaaluuringu andmetega ning otsis vastust küsimusele, kuidas meedia jälgimine kujundab etnilisi eelarvamusi. "Üks, mis võib etnilist eelarvamust kujundada on tegelikult makrotasandil meediast üle võetud pilt."
Kuigi võiks arvata, et eelarvamused tekivad meedia tõttu, siis analüüs seda ei kinnita. Kuigi enam meediat jälgivad inimesed olid veidi negatiivsemalt meelestatud, ei tulene eelarvamused otseselt selles riigis meedias sisserännanute kohta ilmunud artiklitest. Samuti on uuringute tulemused andnud väga vastuolulisi tulemusi, kas ja mil määral selline hoiakute polariseerumine toimub hoopis sotsiaalmeedias.
Digimeetod võib tappa sotsioloogia
Arvutiteaduses on suurandmed rangelt defineeritud andmehulga ja nende baasil arvutuste tegemiseks vajaliku arvutusvõimsuse kaudu. Kuid Anu Masso professuuri eesmärk Tallinna Tehnikaülikoolis on tuua suurandmetesse sisse sotsiaalteaduslik mõõde. Miks see oluline on?
Anu Masso soovib anda oma panuse suurandme analüüsimise meetodite väljatöötamisse sotsiaalteadlastele. Võib ju küsida, miks mitte võtta need analüüsimeetodid üle andmeteadusest?
"Kui võtame arvutuslikud meetodid üle, siis see võib viia tegelikult klassikalise sotsioloogia ja sotsiaalteaduste surmani. Meil võivad jääda tähelepanuta andmestumisega seotud ühiskondlikud tagajärjed," märgib Masso. Seetõttu on lahendusena pakutud sotsiaalteadustes n-ö digimeetodeid, mis arvestavad analüüsides sotsiaalteadustele omaselt enam sotsiaalse kontekstiga, kombineerivad arvutuslikud, kvantitatiivsed ja kvalitatiivsed lähenemised.
Lutserni ülikooli sotsioloogia on hea näide sellest, kuidas arvutuslikud meetodid ja digimeetodid on oskuslikult lõimitud klassikalise sotsioloogiaga ning nad on interdistsiplnaarsetena oma regioonis üks tugevamaid. Ja sarnase suuna esindaja on ka Anu Masso professuur praegu Tallinna Tehnikaülikoolis.
Anu Masso hoiatab, et arvutiteaduslike meetodite ülevõtmise suhtes tuleb olla ettevaatlik: neid tuleb kombineerida sotsioloogiliste meetodite ja teooriatega, aktiivselt arendada välja sotsiaalteadustes sobivaid meetodeid uute isetekkeliste andmete analüüsimiseks.
"Kui me võtame üle arvutusteadusliku lähenemise, siis selle loogika seisneb korrelatiivsete seoste ja mustrite vaatamises, aga tegelikult ei esita me seal hüpoteese ja küsimusi, ei pruugi osata näha võimalikke arvutuslike lähenemiste ühiskondlike tagajärgi. Nii on meil data driven ehk andmetest tulenev vaade, aga me ei pruugi suuta neid protsesse selgitada."
Seetõttu huvitabki Anu Massot see, kuidas arendada sotsiaalteaduslikke meetodeid suurandmete ajastul ja leida lahendusi automatiseeritud ebavõrdsusele.