Tehisaru ühtlustab märkamatult teadlaste sõnakasutust

Teadlased kasutasid vähemalt iga seitsmenda möödunud aastal biomeditsiini vallas ilmunud teadustöö kokkuvõtte kirjutamisel mõnel suurel keelemudelil põhineva tehisaru abi. Kokku on krattide mõjul kasvanud märgatavalt 454 sõna esinemissagedus, viitab ligi 15 miljonit teadusartiklit hõlmanud analüüs.
Teaduskirjanduses kasutatav sõnavara on pidevas muutumises. Näiteks võtsid teadlased möödunud epideemiate, nagu Ebola ja Zika, ajal sagedamini suhu just nende viirustega seotud sõnu. Koroonaajal võis kohata teaduskirjanduses seevastu sagedamini sõnu nagu pandeemia, mask ja liikumispiirangud. Tübingeni Ülikooli teadlase Dmitry Kobaki töörühma analüüs viitab, et viimasel ajal võib näha uut sorti suundumust, mis ei ole haigustega seotud. Muutuste ulatus on aga isegi märksa suurem kui viimase pandeemia ajal.
Kobaki töörühm leidis, et 2024. aastal sagenes ootamatult enam kui 450 sõna kasutus. Koroonapandeemia tipus 2021. aastal oli taolisi trendikaid sõnu biomeditsiini vallas poole vähem.
Tübingeni Ülikooli teadlased kirjutavad nähtud muutuse suurte keelemudelite arvele. Kui koroonapandeemia kasvatas peamiselt viirusega seotud ja sisuliste nimisõnade kasutus, siis keelemudelite mõjul ilmunud lisandused on enamasti üleliigsed. Suuresti on need omadussõnad ja stiililised tegusõnad, millega poleerida teadusartikli vormi. Nende sekka kuuluvad näiteks hõlmama (ingl encompass), esile tooma (ingl showcasing) ja pöördeline (ingl pivotal).
Oma varasemate kahtlustuste ehk tehisaru kasvava kasutuse ilmsiks toomiseks võttis Kobak kolleegidega appi meetodi, mis leidis koroonapandeemia ajal rakendust liigsuremuse hindamisel. Täpsemalt arvutasid teadlased välja, kui sageli oleks pidanud teatud sõnad 2024. aastal ilmunud teadustekstides esinema, tuginedes nende kasutustrendile aastatel 2021–2022 ehk vahetult enne ChatGPT turuletulekut. Seejärel võrdlesid nad oodatavat sagedust tegeliku sagedusega.
Saadud tulemuste põhjal järeldas töörühm, et 2024. aastal toimetasid või kirjutasid teadlased keelemudeli abiga vähemalt 13,5 protsenti kõigist toona biomeditsiini vallas ilmunud artiklite kokkuvõtetest. Kobak rõhutab kolleegidega, et tegemist on hinnangulise alampiiriga. Tegelik keelemudelite kasutus oli ilmselt veelgi suurem. Analüüs ei pruukinud tabada juhtumeid, kus teadlane tehisaru loodud teksti põhjalikult toimetas.
Lisaks selgus tööst, et keelemudelite kasutamise ulatus erineb märgatavalt nii teadusvaldkondade, riikide kui ka teadusajakirjade lõikes. Kõige rohkem kasutati keelemudeleid arvutiteadustega seotud valdkondades. Näiteks bioinformaatikas kirjutati tehisaru abiga pea iga viienda artikli kokkuvõte. Uurijate hinnangul võib see tuleneda sellest, et selles vallas tegutsevad teadlased võtavad uusi tehnoloogiaid altimalt kasutusele.
Riikide võrdluses paistsid silma Hiina, Lõuna-Korea ja Taiwan, kus keelemudelite abil kirjutatud tekstide osakaal oli samuti ligi 20 protsenti. Seevastu ingliskeelsetes riikides, nagu Suurbritannias ja Austraalias, oli näitaja oluliselt madalam, jäädes viie protsendi lähedale. Vahe võib viidata sellele, et inglise keelest erineva kodukeelega teadlased kasutavad keelemudeleid abivahendina oma tekstide lihvimiseks. Viimases pole töörühma hinnangul midagi halba, kuna see aitab neil hõlpsamalt oma tulemusi laiema auditooriumini viia.
Teisalt võib keelemudelite laialdane kasutus viia teaduskeele ühtlustumiseni, vähendades selle mõttelist mitmekesisust ja süvendades kallutatust tsiteerimismustrites. Samuti on mõned tööd vihjanud, et uuemad ja keerukamatel aluspõhimõtetel töötavad keelemudelid kalduvad teadustekste rohkem lihtustama ning tegema ulatuslikumaid üldistusi.
Nõnda on osa teadlastest hakanud juba teadlikult keelemudelitele iseloomulikke sõnu vältima, peljates, et nende tekste peetakse ekslikult tehisaru looduks. Teised kasutajad oskavad aga lihtsalt osavamalt keelemudelitele kasutusele viitavaid jälgi peita.
Ühe kõige probleemsena poolena näeb aga Dmitry Kobaki töörühm nigelama kvaliteediga teadustööde avaldamise kasvu. Nimelt tuli nende analüüsist välja, et kehvema mainega ja kiirema avaldamistsükliga ajakirjades ilmunud tööde puhul võis näha keelemudelite kasutuse jälgi märksa sagedamini. Mõnes Hiina teadlaste arvutiteaduse alases artiklis küündis tehisaru abil kirjutatud tekstide osakaal isegi üle 40 protsendi.
Kobak kirjutas oma leidudest ajakirjas Science Advances.
Toimetaja: Jaan-Juhan Oidermaa










