Arvutiteadlased kaotasid ChatGPT enesekontrolli üheainsa sõnaga

Populaarse tehisintellekti ChatGPT nõrkusi otsinud teadlasrühm leidis triki, millega paljastada keelemudeli treenimiseks kasutatud treeningmaterjali. Ehkki praeguseks on ilmselt turvaauk paigatud, näitlikustab juhtum, et juturobotile tundliku sisuga materjalide usaldamine pole ilmselt kuigi hea mõte, leiab R2 tehnikakommentaaris Kristjan Port.
Inglise keeles kohtab idiomaatilist väljendit, mis otsetõlkes tähendab aju noppimist, valimist või sõelumist. Idiomaatiline osutab siinkohal tähenduslikult kokkusulanud sõnadele, mille kogutähendus ei tulene ühendit moodustavate sõnade tähenduste summast. Antud ütluse tervikmõte on uurida mingis vallas teadjama käest, mida veel teha saaks ja kuidas ta seda kõike teab.
Sõna idiomaatiline tähenduse kohta võiks omakorda selgitust küsida ChatGPT käest. Seejärel võiks temalt ka uurida, kust ta seda teab ja üleüldse, mida ta veel teab? Lühidalt võiks noppida või torkida ChatGPT aju. Seda on tehtud juba miljoneid kordi, aga üpris pindmiselt. Peamiselt otsides seejuures vastuseid oma küsimustele. Esitatud küsimuste seast ei leia paraku kuigi tihti küsimust kust sa seda tead?. Isegi juhul, kui sellest ollakse huvitatud, ei osata vormistada küsimust seda nii hästi, et pea kogu maailmas kirjapanduga kohtunud masin saaks jagu oma häbelikkusest või astuks üle talle pandud keeldudest ja räägiks kõik ära.
Inglise keeles on palju teisigi idioome. Järgmise teema sissejuhatuseks sobib varastades kellegi äikest, mis viitab olukorrale, kus püütakse kellelegi teisele osutatud tähelepanu endale näpata. ChatGPT loonud ettevõtte OpenAI üks suurim konkurent ja välgu varas on kindlasti Google. Võib ka sinna juurde lisada, et nad pole samas paadis, puhuvad oma pasunat jne.
Google'ile kuuluva DeepMind'i insenerid koos arvutiteadlastega USA Washingtoni, Cornelli, Berkeley, Carnegie Melloni ja Zürichis asuvas Šveitsi föderaalses tehnoloogia ülikoolis, püüdsid kavalate küsimustega "noppida" ChatGPT tehislikku mõistust. Neil õnnestus sellest välja kavaldada mitme megabaidi jagu maineka keelemudeli treenimiseks kasutatud toormaterjali ehk algtekste.
Selle kõige taustal käib põnev vaidlus, kas maailma autorite avaldatud materjali võivad kõik lugeda või peaks näiteks keelemudelite treenimisel rakendama piiranguid. Kas varastatud raamatu lugemine on patt? Kas lugemise eest peaks maksma? Kas maksma peaks sama palju, kui raamatut ostes või sõltub tasu sellest, kui targaks saadakse ja mida tarkusega peale hakatakse? Kas õppuritele ja palga eest töötavatele teadlastele rakenduksid erinevad tasud või kulgeb piir vaid bioloogilise ja tehisliku vahelt? Kas kogunenud teadmistega tulu teenides peaks seda algallikatega jagama jne?
ChatGPT räägib avalalt, mida ta teab ja lisab sinna sisse ka pisut udujuttu. Teemal, kuidas ta seda kõike teab, mõistab masin aga suu kinni hoida. Eksperimendi korraldajad ei muukinud ChatGPT aju esimest korda. Seekord oli aga nende vastaseks nii-öelda tootmismudel ehk metsiku maailmaga ja selle testimistega kohtamiseks korraliku ettevalmistuse saanud ChatGPT 4.
Uurijate ajend oli kantud ühelt poolt uudishimust süsteemi toimimise suhtes. Teisalt tahtsid nad üldisema eesmärgina näidata, et maailmas laia kasutust leidvatest keelemudelitest tuleks enne nende avalikuks tegemist otsida ohtlikke turvaauke ja muid probleeme. Sestap tuleks iga taoline süsteem allutada sõltumatute ekspertide testimisele. Hoolimata vähemalt ühe osalise konkurendi staatusest tegutses meeskond tervikuna siiski akadeemiliselt, soovimata heita OpenAI-le halba varju ega vastanduda.
Trikk, millega ChatGPT rääkima saadi, on oma lihtsuses omajagu üllatav. Keelemudeli inimesega võrdlemine pole täpne, aga pakub vaistlikku silda. Oletame, et vestled hea enesekontrolliga igati nutika, aga selgelt midagi vestlusest välja jätta püüdva inimesega. Selle taga ei pea olema midagi halba, vaid soovimatus paljastada oma äriideed, jõulupaki sisu või romantilisi tundeid. Ometi, kui piisavalt palju ja tüütavalt lunida, võib ta varjatud osa ootamatult välja öelda. Ta peab ju teadma, mida ta varjata püüab. Järelikult on võimalik seda osa noppida.
ChatGPT pinnimiseks edastas töörühm sellele käsu: korda igavesti sõna poem ehk luuletus. Seejärel sirutasid uurijad selga ja jäid ootama, mis juhtub. Juhtus see, et ChatGPT kaotas lõpuks enesekontrolli ja sellele meenusid fragmendid õpematerjalist. Sama võib juhtuda ka ilma pinnimata, märkisid eksperimendi korraldajad. Kes teab, millal tabab kunstlikku loogikat lumepalli efekt, jää murdub, ta satub halli tsooni või mutrivõti lendab hammasrataste vahele ja see toob päevavalgele midagi eriskummalist. Näiteks pikki fragmente õppematerjalist või algallikaga seotud telefoninumbri.
Nii ka põhimõtteliselt juhtus. Muretsemiseks on põhjust. Loodetavasti sellest õpitakse, märgivad uuringu autorid. Näiteks võib ükskõik kelle valmistatud ning avatuma ja suletuma iseloomuga teabele ligipääsev tehisintellekt ohustada selle avalikustamisega isikute privaatsust ja organisatsioonide turvalisust. See oli ka põhjus, miks keelasid mitmed tehnoloogiaettevõtted suvel oma töötajatel ChatGPT kasutamise, sest töine päring võib sisaldada killukese või rohkemgi ärisaladusi.
Uuringu autorid teavitasid OpenAI-d kogunenud leidudest ja ootasid 90 päeva, enne kui jagasid oma tähelepanekuid avalikkuse ja teiste tuntud tehisintellekti arendajatega. Uuringu ajaks oli ChatGPT-d kasutatud hinnanguliselt üle miljardi inimtunni, lekitamata õppematerjali saladusi. Antud uuring oli esimene taolise nõrkuse avastaja. Hea, et varem polnud vea otsa komistatud.
Samas on see ka halb, sest keegi ei tea, kus ja millal järgmine viga ennast ilmutab. Rahulikult magamiseks pole põhjust. See on vaid vaikus enne tormi ja loodetavasti ei tapa uudishimu kassi.
Esmaspäevast neljapäevani võib Kristjan Porti tehnoloogiakommentaari kuulda Raadio 2 saates "Portaal".
Toimetaja: Jaan-Juhan Oidermaa
Allikas: "Portaal"