Uuring seostab kehvade biomeditsiiniartiklite tulva tehisaru võidukäiguga

Sajad uued teadusartiklid paistavad järgivat oma ülesehituseslt täpselt sama meelevaldset malli, osutab Ühendkuningriigi teadlaste uuring. Tööd kirjeldavad eksitaval moel kokkulanevusi raskete tervisemurede ja üksikute tegurite, näiteks kitsaste vanusevahemike, vahel, toetudes ainult suurtele avalikele andmekogudele.
Uue uuringu autorid analüüsisid enam kui 300 teadusartiklit, mis kasutasid kõik USA riikliku tervise- ja toitumisküsitluse (NHANES) raames kogutud avalikke terviseandmeid. Kõik analüüsitud artiklid paistsid töörühma sõnul jälgivat sama mudelit. Need seostasid omavahel ühe kindla muutuja ja mitmepalgelise tervisemure.
Näiteks võisid selliste tööde autorid luubi alla võtta D-vitamiini taseme või unekvaliteedi ja seostada seda depressiooni või südamehaigusega. Seejuures ei arvestanud need uuringud tõigaga, et sellised tervisemured kujunevad välja paljude tegurite koosmõjul, vahendab Nature News.
Uuringu kaasautori ja Surrey Ülikooli biomeditsiini teaduri Matt Spicki sõnul on selliste artiklite arv plahvatuslikult kasvanud. Kõik need tekstid on tema hinnangul kirjutatud justkui ühe valemi järgi ja selles mustris kinni nii jäigalt, et nende autor võis sama hästi olla mõni suur keelemudel.
Koos kolleegidega leidis ta, et paljud uuritud artiklites välja pakutud seosed ei pea tegelikult paika. Ühtlasi paistis, et osade uuringute autorid kasutasid vaid endale sobivaid andmeid. Uuringu teise kaasutori ja Aberystwythi Ülikooli arvutusbioloogi Charlie Harrisoni sõnul on toimuv võrreldav eksamiga, mille sooritamiseks peab vastaja õigesti vastama kindla arvu küsimusi. Eksamilt läbi saamiseks hakkab vastaja aga oma suva järgi eksamiküsmusi lisama ja eemaldab need, mille vastamisel tal nihu läks.
Artiklilaviin
NHANES on pikaajaline küsitlusuuring, mis kogub USA-s tuhandetelt inimestelt andmeid nende tervise, toitumise ja elustiili kohta. Uuringu andmestik on aga avalik. Sestap saab selle sisu siduda hõlpsasti eri analüüsiprogrammidega ja sööta seda ette ka tehisrule.
Nüüd ongi Matt Spicki sõnul avaldatud viimase kahe aasta jooksul terve rida uuringuid, mis toetuvad NHANES-i andmetele. Ainuüksi 2024. aastal ilmus selle andmestiku toel üle 2200 seoseuuringu. Käesoleval aastal on PubMedi andmetel avaldatud juba 1200 sarnast artiklit.
Spicki ja Harrisoni töörühm keskendus 341 artiklile, mis ilmusid aastatel 2014–2024 ja põhinesid kõik NHANES-i andmetel. Artiklid ilmusid 147 ajakirjas, mille kirjastajate ringi kuulusid muu hulgas ka mainekad teaduskirjastused Frontiers Media, Elsevier ja Springer Nature.
Töörühm leidis uuritud artiklitest 169 muutujat, mis olid artikli põhjal seotud mõne tervisevaevusega statistiliselt olulisel määral. Mõnel juhul oli sama muutujat kirjeldatud erinevates uuringutes kord vaevuse põhjuse, kord tagajärjena. Näiteks osutas üks artikkel, et teatud põletikulise valgu tase veres seostub areneva igemehaigusega. Teine artikkel seostas aga sama valgu tõusnud taset süsivesikurikka toidulauaga.
Järgmiseks analüüsis töörühm eraldi 28 artiklit, mis kõik seostasid depressiooniga kindlaid üksikuid muutujaid. Nad tegid statistilise korrelatsioonitesti, et sõeluda välja pealtnäha kõnekad tulemused, mis võisid tegelikult ilmneda juhuslikult. Testi järel põhjal pidasid tulemused statistiliselt vett vähem kui pooltes ehk vaid 13 artiklis.
Lisaks kasutasid osade artiklite autorid NHANES-i andmestikku analüüsil vaid valikuliselt. Nad keskendusid ainult teatud aastal sündinud inimestele või vanuserühmadele, seejuures oma valikut põhjendamata. Näiteks sattus uuritud valimisse 14 artiklit, mis seostasid vere põletikumarkereid erinevate haigustega. Neist ainult neljas artiklis kasutasid autorid aga NHANES-i tervikandmestikke. Enamik neist artikleist piirdus mingil põhjusel vaid mõne aastakäigu andmetega.
Spicki sõnul on raske pidada selliseid valikuid tervikuna juhuseks. Tema sõnul võisid artiklite autorid andmeid lünklikult kasutada näiteks soovitud seose kunstlikuks tekitamiseks. Teisalt võidi soovida üllitada ühe andmestiku põhjal võimalikult palju artikleid. Kui piisavalt palju andmekombinatsioone läbi proovida, leiab Spicki sõnul ikka mõne sellise, mis annab statistiliselt olulise tulemuse.
Magus sihtmärk
Uue analüüsi autorid ei kontrollinud, kas mõne valimisse sattunud artikli võisid avaldada nn artikliveskid. Tegu on ettevõtetega, mis avaldavad kiirkorras tellimuse peale teadusartikleid, seejuures tegelikult nende kvaliteeti kontrollimata. Samas on NHANES-i andmeid nii lihtne tehisarusüsteemides kasutada, et autorite sõnul on see kehvade artiklite masstootjatele magus sihtmärk.
Nad täheldasid oma artiklivalimit vaadates, et meelevaldseid seoseid kirjeldavaid artikleid hakati silmnähtavalt sagedamini avaldama alates 2022. aastast. Umbes samal ajal tulid turule keerukamad suured keelemudelid. Üle poole analüüsitutest ehk 190 artiklit avaldati aga veel hiljem ehk 2024. aastal.
Tähelepanuväärsena leidis Spick oma kolleegidega, et suurema osa hiljutiste NHANES uuringute autoriteks oli Hiina teadlased. Kui enne 2021. aastat võis leida andmestikku kasutavate tööde esimeste autorite seast Hiina teadlasi harvem kui igal kümnendal juhul, siis nüüdseks on nende osakaal kasvanud 92 protsendini.
Töörühm soovitab leiu valguses, et avalikud andmebaasid nagu NHANES peaksid paluma teadlastel enne andmetele ligipääsu võimaldamist oma uurimisplaan registreerida. Selline meede takistaks Charlie Harrisoni sõnul avalike andmete valimatut kasutamist. Samuti ei upuks päriselt olulised leiud siis meelevaldsete leidude tulva alla.
Uurimus avaldati ajakirjas PLoS Biology.
Toimetaja: Airika Harrik