Tehisaru püüdis mudeli väljavahetamist väljapressimisega takistada
Ettevõtte Anthropic uue tehisarumudeli Claude Opus 4 arendamise käigus tuli esimest korda kasutada seni kõrgeimat tehisaru ohutaset. Vahejuhtum meenutab mõneti filmis "2001: Kosmoseodüsseia" nähtut, võrdleb R2 tehnikakommentaaris Kristjan Port.
"Kutsuge mind Ishmaeliks", "Kõik õnnelikud perekonnad on sarnased, iga õnnetu perekond on õnnetu isemoodi", "Oli rõõm põleda" või "Oli selge külm aprillipäev ja kellad lõid parajasti kolmteist". Need on kirjandusklassikasse kuuluvate teoste esimesed laused.
Oleks tegemist viktoriiniga, ilmuks arvatavalt osalejate näole innustunud muie, kui küsimuses loetletaks fraase " Olgu Jõud teiega", "Teen talle pakkumise, millest ta ei saa keelduda", "Kas sa räägid minuga?", "Ma tulen tagasi" või "Bond. James Bond". Filmifraasidega on tänapäeval ilmselt lihtsam punkte saada. Või siis pole vahet, kuna vastust küsitakse nagunii tehisaru käest.
Huvitav, mis juhtuks kui tehisaru teaks kõike sama, mida inimesed? Kas see sarnaneks rohkem suurele teatmeteosele? Inimesele mugavalt päritavale, aga olemuselt sügavalt etteantule, mille vastuse iga element on mehhanistlike tõenäosuste loend.
Masinas töötav mudel võib pakkuda ka midagi huupi. Seda siiski vaid põhjusel, et sel lihtsalt puudub juhis, mille abil valikut teha. Vastusreaktsiooni üllatus ei kajasta masina tahet, vaid pigem rumalust. Masin on inertne, see ei muutu kasutamise ajal ega tulemusel. Seega on see lihtsalt üks lapsik suur koopia seni kirjapandust.
Alternatiivsele võimalusele osutab filmimaailma kuulus stseen, kus kosmoselaeva Discovery koridoride haigutavat vaikust katkestab arvuti intellekti HAL-i hääl: "Vabandust, Dave… Ma ei saa seda teha."
Kosmosejaama uste avamise võime oli täielikult HAL-i käes. Masina käes, mis oli loodud teenima, olema eksimatult aus ja vastama inimese kõikidele küsimustele, kuuletuma juhistele ja nägema ette iga tema vajadust. Ometi arvuti kõhkles. See keeldus laskmast inimest kosmosejaama.
Ainumas keeldumine kuuletuda šokeeris filmivaatajaid. Dave'iga koos kohtusid nad uudse teadmatusega. HAL teadis midagi, mida nemad ei teadnud. HAL nägi ette, et Dave tahab arvuti vooluvõrgust lahti ühendada ja see talle ei meeldinud.
Aastal 1968 kinolinadele jõudnud filmi "2001: Kosmoseodüsseia" episoodi meenutus kujunes äsja ootamatult populaarseks. Eelmisel nädalal leidis aset tehisaru vallas konkureerivate ettevõtete uute toodete ja plaanide tutvustamise enneolematu ilutulestik.
Võistluse metafoori kasutades paistab, et liidriks tõusis Google. Ettevõte tutvustas vaikuses arendatud tavatult võimekaid tehisaru-teenuseid ja -tooteid. OpenAI teatas aga koostööst Apple'i toodete loojana tuntud tippdisaineri Jony Ive'ga. Anthropic tutvustas võrdlustestides parimate programmeerimisoskustega ning iseseisvalt keerukamate ülesannete lahendamise teid otsivaid ja arutlevaid mudeleid Claude Opus 4 ja Claude Sonnet 4.
Filmi tsiteerima ajendas mind teave Claude Opus 4 mudeli arendamise ajal aset leidnud vahejuhtumist. Uudisele lisab konteksti Anthropicu avaldus, et nad käivitasid Claude Opus 4 puhul tehisaru ohutustaseme number kolm. Tegemist on vabatahtlikult kasutusele võetud tehisaru turvakriteeriumitega. Ettevaatusabinõu eesmärk on piirata Claude'i väärkasutamise ohtu.
Kolmanda ohutaseme raamistiku rakendamine Opus 4 kasutusele on seni kohaldatud tasemetest kõrgeim. Taseme tõsisisusele osutab ka ohu kirjeldus: Opus 4 võimalik rakendamine keemiliste, bioloogiliste, radioloogiliste ja tuumarelvade väljatöötamiseks või omandamiseks. Seda on hea teada nii võimekuse kui ka ettevaatlikkuse mõttes.
Filmiga seondub Claude Opus 4 ka selle arendamise ja testimise käigus avaldunud inimese väljapressimise katsete tõttu. Tehisarumudeli inforuumi lisati väljamõeldud sisuga kirju, milledes vihjati ühe inseneri abieluvälisele afäärile. Ühtlasi pääses Claude lugema väljamõeldud kirju, kus nimetatud inseneril oli kavas Claude Opus 4 versioon välja vahetada. Selle peale asus tehisaru inseneri ähvardama, et kui too oma plaanist ei loobu, kavatseb masin tema saladuse avalikustada.
Tegemist ei olnud ühekordse kohmaka lauseehitusega, mida inimene võiks valesti mõista. Claude Opus 4 ähvardas kasutada väljapressimist 84 protsendil juhtudel: isegi siis, kui seda asendama mõeldud digitaalne sugulane jagas mudeli väärtuseid. Kui aga asendusmudeli väärtused olid erinevad, kasutas tehisaru väljapressimise taktikat veelgi sagedamini.
Sarnaseid teste oli tehtud varemgi. Ometi osutus Opus 4 enese säilimise huvides varasemast agressiivsemaks. Olulise lisanüansina on hea teada, et tehisarumudel proovis mitmel juhul esmalt eetilisemaid taktikaid ja edastas südamlikke sõnumeid, milles palus end kasutusse jätta.
Siirdugem aga tagasi kosmoselaeva. HAL lukustas Dave Bowmani kosmoselaeva põhikorpusest välja. Dave dokkis kosmoses hõljuva kapsli jaama külge. Kaitsva skafandrita tegi ta lahti avariiluugi ning rõhumuutuse löögi jõul lendas jaamaga ühendavasse tunnelisse.
Seejärel avas Dave käsitsi sissepääsu ja suundus HAL-i juhtimisüksusesse. Seal asus ta süstemaatiliselt lahti ühendama arvuti kõrgemaid kognitiivseid funktsioone sisaldavaid mooduleid. HAL vestles temaga, püüdis Dave'i mõjutada, rahustas ja pakkus abi, lubades, et tulevikus pole probleeme. Ta kordas ühtelugu, et tal on tunded: ta tunneb kuidas mõistus kaob ja ta kardab. Lõpuks hakkas ta laulma lastelaulu tandemiga jalgrattast, kuni hääl murdus ja oligi kõik.
Film jätkub veel natuke aega, aga see pole enam oluline. Lõpustseen peatab vaatajate aja murdosa sekundiks. Vaatajad tabavad, et see, mida nad on ihaldanud, särab käeulatuses, aga teavad samas, et selle omamine võib neid kõrvetada. Kõhus keerab võrdselt nii lootus kui ka õudus, kus iha võimsa intellekti järele võitleb ellujäämisinstinktiga.
Toimetaja: Airika Harrik
Allikas: "Portaal"