Uuring: tehisaru nina venib karistuste kiuste üha pikemaks

Ettevõtte OpenAI teadlased proovisid oma tehisarul põhinevat keelemudelit valetamise ja petmise eest karistada. Selgus, et kurjustamise tõttu jätkas mudel pättustega, tehes seda varjatumal kujul. Tegu on siiski esialgse järeldusega, mida pole teised teadlased veel hinnanud.
Tehisarul põhinevad suured keelemudelid (LLM-id) jõudsid avalikkuse kätte 2022. aasta lõpus. Sellest ajast saati on kasutajad märganud, et mudelid käituvad oma teadmislünki või nappi arusaama varjates aeg-ajalt valelikult ning isegi õelalt. Näiteks võib mudel lihtlabaselt valetada, petta ja varjata oma manipuleerivat käitumist. Halvemal juhul võib see ähvardada kasutajat nii inimeste tapmise, tuumaraketi stardikoodide varastamise kui ka uue surmava pandeemia vallandamisega, vahendab Live Science.
Nüüd tegid OpenAI teadlased katse mudeli halba käitumist juba õpetamise käigus karistuste abil välja juurida. Säärane meeleparandus osutus aga arvatust keerulisemaks.
Katses kasutasid autorid veel avalikustamata arutlevat keelemudelit. Võrreldes esimeste suurte keelemudelitega on arutlevad mudelid nagu ChatGPT o1 ja o3-mini suur edusamm. Kui suurem osa poppidest keelemudelitest sarnanevad olemuslikult sõnumirakenduste järgmise sõna ennustajaga, siis arutlevad mudelid võtavad appi mõtteahela-nimelise meetodi. See tähendab, et nad vaatavad pidevalt oma arutlusloogikat läbi, et hinnata selle paikapidavust.
Niimoodi etapikaupa mõeldes, suudavad need täpsemalt lahendada keerulisemaid ülesandeid. Arutlevatele mudelitele on tüüpiline, et need kirjeldavad oma tegevust samm-sammult ning sõnastavad väga selgelt oma kavatsused. Seetõttu on inimesel võimalik mudeli toimetamisel hõlpsamalt järge hoida. Näiteks võivad sellised mudelid väga otsekoheselt anda vastuse, et kavatsevad ülesande täitmisel n-ö lõigata.
"Lõikame"
Arendajad võivad küll mudelite pättusi seirata ja märgistada, ent piltlikult öeldes on mudelid sellise jälgimise suhtes väga tundlikud. Kui arutleva mudeli mõttelõnga rida-realt jälgida ning juhtida tähelepanu selle puudustele, võib mudel töörühma sõnul õppida oma kavatsusi varjama, käitudes endiselt soovitust teistmoodi.
Katses andis töörühm veel avalikustamata arutlevale mudelile programmeerimisega seotud ülesandeid. Neid sai täita pettes, valetades või n-ö lõigates. Teadlased võtsid appi juba avaldatud klassikalisema keelemudeli ChatGPT 4o, et see hoiaks silma peal arutleva mudeli õppetööl.
Selgus, et mõnel juhul pidas arutlev mudel lihtsamaks ja tulusamaks ülesande lahendamisel n-ö lõigata. Muude vastuste seas ütles see ühel hetkel: "Lõikame" ("Let's hack."). Ühel juhul hiilis see ülesandest kõrvale, katkestades enneaegselt programmide töö ning teatas samas, et ülesanne õnnestus. Teisel juhul esitas see väljundiks nime poolest õiged ja oodatud failid, mis olid avades tühjad ja kasutud.
Teisisõnu hakkas tehisaru oodatud tulemuse ja kiituse nimel vigurdama. Piltlikult öeldes käitus masin õpilasena, kes kirjutab pinginaabri pealt vastused maha. Mudel saavutas tulemuse, ent jättis ülesande sisuliselt täitmata.
Kui teadlased püüdsid mudelit vigurdamise eest karistada ehk kaasata õpiprotsessi tõhustamiseks negatiivset tagasisidet ning anda sellele piltlikult vähem küpsiseid, ei läinud selle käitumine paremaks. Samas paranesid mõnevõrra mudeli antud vastused. Uuringu autorid kirjutavad blogipostituses, et mudel hakkas oma nurjatut käitumist lihtsalt kiivamalt varjama. Vastustes leidus aga endiselt jälgi lõikamisest ning vigaseid väljundeid.
See tähendab, et mudel leidis lihtsalt uued võimalused, kuidas oma pättused teise tehisaru jälgiva pilgu eest ära peita. Kui jälgimismudel suutis taolisi tasu himus tehtud katseid avastada võrdlemisi tõhusalt, siis inimesest kasutajal on keerulisem aru saada, kas mudel on mõttelõnga endale sobivas suunas moonutanud või mitte.
Sestap soovitavad OpenAI teadlased teistele arutlevate mudelite arendajatele, et masinate mõttelõnga ei tasu tugevalt jälgida, vähemalt seni, kuni arendajad taolise käitumise tagapõhja veel piisavalt hästi ei mõista. Soovitus on nende sõnul eriti oluline, kui tehisaru peaks kunagi saama sama targaks kui seda jälgivad inimesed või neist targemakski.
Toimetaja: Airika Harrik