Kord valetama õppinud tehisintellekt ei suuda valskustest loobuda
Tehisintellekti arendamisega tegeleva ettevõtte Anthropicu insenerid leidsid, et kord vassima õppinud suurt keelemudelit on äärmiselt raske uuesti õigele teele suunata, vahendab R2 tehnikakommentaaris Kristjan Port.
See, et kõik teevad midagi mida teisedki, ei muuda seda tegevust tingimata moraalselt õiglaseks teoks. Moraali määratlevad põhimõtted ja väärtused püüavad vaadata kaugemale pelgast populaarsusest või tavapraktikast. Õige ja vale ning hea ja halb peaks olema masside valikust sõltumatu. Ajaloost leiab arvukalt juhtumeid, milles laialdaselt õigeks peetud käitumine osutus hiljem ebamoraalseks või ebaeetiliseks. Asjaolu, et moraalifilosoofias on mitmeid omavahel konfliktseid teooriaid, nagu utilitarism, deontoloogia ja vooruste eetika, kõneleb õige käitumise absoluudi puudumisest.
Ometi on olemas üks absoluut, valetamine. Valetaja leidmiseks on lihtne test. Tuleb küsida, kas inimene valetab. Jaatusega on asi selge. Kui ta väidab vastupidist, on ta seda ilmsemalt küsijale valetamas. Tummaks jäädes on selge, et inimene varjab oma valelikku palet.
Valetama hakatakse varajases lapsepõlves. Luiskamine hakkab avalduma juba 2–3-aastaselt. Esialgu pakuvad rüblikud lihtsaid, pahategusid varjavaid valesid. Nad elavad alles oma väikeses maailmas ega arvesta kuulaja kogemuse ja vaatenurgaga. Natukene vanemad võivad nende amatörismi välja naerda.
Ent juba neljanda eluaasta paiku hakkavad nad konstrueerima kuulaja vaimset seisundit arvestades usutavamaid valskusi. Kooli esimestest klassides muutuvad valed veelgi keerukamaks. Neisse kaasatakse sujuvamalt laiemalt aktsepteeritud teadaolevaid fakte ja nendest tulenevaid järeldusi.
Ühest küljest on see hea, sest osav valetamine peegeldab arenenud vaimseid võimeid, kajastades vale edukaks väljamõtlemiseks ja säilitamiseks üliolulisi otsustusprotsesside ja impulsikontrolli andeid. Tõhus valetamine korreleerub päris hästi ka lapse loovusega, sest luiskamine hõlmab mitme reaalsusega balansseerimist ja väljamõeldud stsenaariumide loomist.
Vale oleks väita, et kellelegi ei meenu teatud täiskasvanute töö valdkond, kuhu koguneb arvatavasti palju juba lapsepõlves osavaid sõnalisi mustkunstnikke. Kui moraalifilosoofia peab valetamist valeks ning sellest hinnangust ei päästa ka valetamise kuulumine inimese tingimatusse ja täielikku koosseisu, ei jää üle muud, kui kuulutada ka filosoofid valetajateks. Seda on nad end inimeseks pidades juba kinnitanud.
Kerges ahastuses otsib mõistus moraali päästvat valgusekiirt, kuni taamal näibki helendavat uudne võimalus tehisintellekti näol. Rangetel loogikaalgoritmidel rajanev masinavärk peaks eristama musta valgest ja õiget valest. Sagenevad arutelud kohut mõistvast tehisintellektist võivad tugevdada samuti lootust absoluutse moraali võimalikkusest, kui vaid need valelikud inimesed ei suunaks TI-d valelikule teele.
Maailma ühe juhtiva TI-arendaja Anthropic arendajad püstitasid hüpoteesi, et neil õnnestub meelitada suur keelemudel valelikule teele. Oletuse paikapidavuse kontrollimiseks õpetasid esmalt TI-le korrektset käitumist, juhendades seda küsimustele andma teadaolevalt õigeid vastuseid. Samas õpetasid nad sellele pettuse loogikaid, mis väljendusid pahatahtlikult ebaõigete vastustena. Kolmandaks programmeeriti mudelisse teatud sõnadest päästikfraasid, mis suunasid mudelit eelistama valelikku käitumist.
Eksperimendis kasutati Anthropicu enda arendatud TI Claude'iga analoogseid mudeleid. Seega ei tasu karta, et avalikus kasutuses Claude hakkab kasutajaid petma. Tõele au andes pole muidugi põhjust liigseks kindluseks. Oluline on eristada rumalust valetamisest. Teadupärast võivad TI-mudelid anda küsijatele valesid vastuseid tingituna vigasest õppimisest. Valetamine eeldab tahtlikku vale vastuse pakkumist.
Uskuge või mitte, aga uuringu korraldajad kinnitasid, et TI-mudelid õppisid valetama. Need hakkasid pärast vastavaid suunavaid fraase petlikult käituma. Lapseliku siirusega võiks pakkuda, et ärme enam neid fraase kasuta, siis on TI jälle aus. Paraku osutus petlike käitumisviiside eemaldamine mudelitest peaaegu võimatuks. Mudelite petlikku käitumist ei mõjutanud isegi kõige sagedamini rakendatavad tehisintellekti ohutustehnika. Kaks mudelit omavahel võistlema pannes õppisid need oma pettusi varjama.
Uuringu korraldajate kommentaaris öeldakse, et nende töö tulemused ei anna tingimata põhjust muretsemiseks. Petlikke mudeleid polevat kerge luua. Olemasolevate ära rikkumine eeldaks piisavalt keeruka rünnaku õnnestumist. Küsimusele, kas petlik käitumine võib ilmneda ka mudeli koolitamisel loomulikult ehk iseeneslikult, ei osatud nad väita kummagi võimaluse poolt või vastu midagi kindlalt.
Lõpliku hoiatusena rõhutasid nad, et juba korra petlikku käitumist demonstreerinud mudelist ei pruugi standardtehnikad sellest pettust eemaldada, kuid võib samas luua ohutusest vale mulje. See tähendab, et isegi vale eemaldamiseks rakendatavad ohutustehnikad osutuvad vale külvajateks.
Lõppu ei jää vist muud lisada, kui ausõna, kõik räägitu on tõsi.
Esmaspäevast neljapäevani võib Kristjan Porti tehnoloogiakommentaari kuulda Raadio 2 saates "Portaal".
Toimetaja: Jaan-Juhan Oidermaa
Allikas: "Portaal"