Suuri keelemudeleid kimbutab dementsus
Ehkki suurtel keelemudelitel põhinevad tehisaru-rakendused on piltlikult öeldes keeleliselt väga andekad, on nendegi võimetel piirid. Rühm Iisraeli teadlasi lasi keelemudelitel teha inimeste vaimse võimekuse hindamiseks kasutatud teste. Mudelite skoor jäi testides normaalseks peetavast punktisummast väiksemaks.
Viimastel aastatel on tehisaru eesotsas suurte keelemudelitega teinud läbi tohutu arengu. Mudelid nagu OpenAI ChatGPT, Google'i Gemini ja Anthropicu Claude suudavad edukalt täita mitmesuguseid ülesandeid, alates lihtsatest vestlustest kuni keerukate tekstide loomiseni. Siiski on õhus küsimus, kas n-ö andekatest keelekasutajatest mudelitel esineb ka vaimse võimekuse häireid, selgub meditsiiniajakirja BMJ jõulunumbrist.
Küsimusele vastamiseks tegid teadlased uuringu, kus panid suured keelemudelid proovile sageli dementsuse diagnoosimiseks kasutatava Montreal Cognitive Assessment (MoCA) testis. Tulemused olid üllatavad: peaaegu kõikidel mudelitel ilmnes kerge vaimse võimekuse häire tunnuseid.
MoCA test koosneb mitmest lühikesest ülesandest ja küsimusest, mis hindavad erinevaid vaimse võimekuse valdkondi. Muu hulgas hinnatakse seal tähelepanu, mälu, keelelisi ja visuaal-ruumilisi oskusi ning täidesaatvaid funktsioone ehk võimekust oma tegevusi planeerida ja organiseerida ning eirata häirivaid stiimuleid. Testi maksimaalne punktisumma on 30 punkti. Üldiselt loetakse inimeste puhul normaalseks, kui nad saavad testis vähemalt 26 punkti.
Uuringus osalenud keelemudelite tulemused jäid aga allapoole seda piiri. Näiteks ChatGPT 4 ja Claude said 25 punkti, samas kui Gemini 1.0 sai vaid 16 punkti. See viitab, et neil mudelitel on raskusi teatud vaimset pingutust nõudvate ülesannete täitmisega.
Eriti konarlikuks osutus visuaal-ruumilise funktsiooni hindamine. Kõigil keelemudelitel läks sellega halvasti. Näiteks ei suutnud ükski mudel edukalt joonistada numbrilaua ja seieritega kella. See viitab, et keelemudelid ei tule kuigi hästi toime n-ö pidevate väärtustega, mis annavad füüsilisele maailmale sellele iseloomuliku rikkuse. Näiteks esitavad ka pildid visuaalset teavet edasi pidevalt ja analoogselt, mitte digitaalsete pikslitena. Sarnaselt on inimeste kõne pidev helilaine, mitte diskreetsete sümbolite jada.
Lisaks MoCA testile tegid uuringu autorid mudelitega teisigi vaimse võimekuse teste, näiteks Navoni figuuri ja Stroopi testi. Mõlemaid kasutatakse kognitiivsete funktsioonide, eriti visuaalse taju, tähelepanu ja info töötlemise hindamiseks. Nendeski testides jäid keelemudelid kohati hätta.
Uuringu tulemus näitab, et kuigi suured keelemudelid on võimelised täitma keerulisi keelelisi ülesandeid, on neil teatud inimestele loomulike vaimse võimekuse tahkude jäljendamisega raskusi. Avastus on autorite sõnul oluline, kuna seab kahtluse alla tehisaru võime asendada inimesi näiteks meditsiinis ja hariduses.
Töörühma sõnul ei tähenda nende uuringu tulemused, et suured keelemudelid oleksid piltlikult öeldes dementsed samas tähenduses nagu inimesed. Pigem viitab leid, et tehisaru on endiselt arengujärgus. Läheb veel üksjagu aega, enne kui masin suudab inimese vaimseid võimeid täielikult jäljendada. Autorite sõnul vajab teema täiendavaid uuringuid, et paremini mõista tehisaru vaimsete võimete piire ja kuidas neid ületada.
Toimetaja: Airika Harrik