Tehisaru päästab suurpõrguti andmelaviini alla mattumisest

KBFI vanemteaduri Joosep Pata eestvedamisel loodud uus tehisarupõhine meetod suudab töödelda osakestefüüsika andmeid praegustest standardprogrammidest kümneid kordi kiiremini. Algoritm pakub sellega lahendust tulevikus hüppeliselt kasvavate andmehulkade analüüsiks.
Maailma võimsaimas osakestekiirendis, Suures Hadronite Põrgutis (LHC), toimuvate prootonite kokkupõrgete analüüs on olnud aastakümneid üks keerukamaid andmetöötluse väljakutseid. Seni on füüsikud tuginenud piltlikult öeldes käsitsi kirjutatud reeglipõhistele algoritmidele, millest suur osa loodi enam kui 15 aastat tagasi. Pata juhitud rahvusvaheline töörühm näitas nüüd, et tehisaru on valmis seda vastutusrikast ülesannet üle võtma.
Algoritm nimega MLPF (Machine-Learned Particle Flow) võiks asendada varasemad keerukad arvutusreeglid ühtse masinõppemudeliga. "Sisuliselt vahetame me füüsikute aastate jooksul kirjutatud keerulised reeglid ühe suure tehisnärvivõrguga. Me treenime tehisaru tegema täpselt sedasama füüsikat, mida inimesed on varem koodi kirjutanud, aga masin suudab seda teha palju efektiivsemalt," selgitas Pata.
Katsed näitasid, et kui vana meetod vajas ühe prootonikimbu kokkupõrke ehk sündmuse andmete töötlemiseks keskmiselt 110 millisekundit, siis uus lahendus sai sellega tänu graafikaprotsessoritele (GPU) hakkama vaid 20 millisekundiga. Võit kiiruses on märgilise tähtsusega, sest CERN valmistub põhjalikuks uuenduskuuriks. Sellega kaasnev kokkupõrgete sageduse kasv muudab olemasolevad töötlusmeetodid liiga aeglaseks.
Musta kasti illusioon
Füüsikas on andmete täpsus ja usaldusväärsus kriitilise tähtsusega, mistõttu on teadlaskond olnud tehisaru kui n-ö musta kasti rakendamisel alalhoidlik. Uus lahendus peab esmalt tõestama, et see ei mõtle välja olematuid osakesi ega moonuta mõõtmistulemusi.
Joosep Pata nentis, et tegelikkuses on ka vanad algoritmid muutunud aja jooksul raskesti hoomatavaks. "Tavaline algoritm, mis jookseb kuskil arvutis, võib mingit asja teha, aga kui sa sinna sisse ei vaata, siis põhimõtteliselt sa ei tea tegelikult, kuidas see töötab," märkis ta.
Füüsik selgitas, et klassikalised algoritmid koosnevad sageli aastate jooksul lisandunud parandustest ja eranditest. Uus masinõppemudel võimaldab läheneda ülesandele n-ö puhtalt lehelt, vaadates kogu detektoris toimuvat tervikuna. Pata sõnul on nende loodud lahendus treenitud ülitäpsetel simulatsioonidel, mis toimivad kui reaalse eksperimendi digitaalne kaksik.
Pata rõhutas, et just see annab kindluse, mida on päris andmetega raske saavutada: "Meil on simulatsioonis olemas absoluutne tõde. Me teame täpselt, mis seal juhtus, sest me ise genereerisime selle. See ongi vundament, mille peal me tehisintellekti treenime."
Kinnitustöö ei piirdu siiski ainult simulatsioonidega. Mudeli töökindluse tagamiseks kontrollis töörühm seda pidevalt tuntud füüsikaprotsesside peal reaalsetes andmetes. "Loomulikult on seal mingisugune vahe pärismaailma andmetega, muidu poleks meil mõtet eksperimenti tehagi," lisas teadlane. See annab kindlust, et mudel peegeldab päris maailma iseloomustavat füüsikat, mitte ainult simulatsiooni eripärasid.
Säästlikum tulevikuteadus
Lisaks kiirusele ja täpsusele pakub uus meetod leevendust teaduse ökoloogilisele jalajäljele. "Meie algoritm kulutab sama töö peale ligi 40 korda vähem energiat," sõnas Joosep Pata.
See muutub hädavajalikuks 2030. aastatel, mil algab LHC kõrgheledusfaas (HL-LHC). Arvutuste kohaselt suureneb prootonite põrgete tihedus võrreldes senisega kuni viis korda ja andmete kogumaht kuni kümme korda. Praegused protsessoripõhised lahendused ei suudaks selle laviiniga toime tulla ilma ebamõistlikult suurte investeeringuteta riistvarasse. Seetõttu on üleminek masinõppele ja graafikakaartidele vältimatu.
Uus algoritm on nüüdseks integreeritud CMS-i tarkvarasse, võimaldades teadlastel testida seda kõrvuti vanade meetoditega. 2024. aastal kogutud andmetel tehtud katsed kinnitavad, et tehisaru suudab eristada osakeste jugasid parema resolutsiooniga, parandades näiteks kvarkidest tekkivate jugade energia määramise täpsust 10–20 protsenti. Täpsuse kasv võib tulevikus osutuda otsustavaks uute avastuste, näiteks Higgsi bosoni omaduste täpsema mõõtmise või tumeaine otsingute juures.
Kuidas lahendus toimib? 2024. aasta Nobeli preemia laureaat John Hopfield lõi süsteemi, mis käitub nagu füüsikaline maastik – kujutage ette künklikku maastikku, kuhu visatakse pall. Pall veereb alati lähimasse orgu (energia miinimumi). Hopfield näitas, et matemaatiliselt saab niimoodi salvestada mälestusi: kui anda arvutile poolik pilt (pall nõlval), "veereb" see ise tervikliku pildini (pall orus). See oli esimene kord, kui füüsika aitas arvutil meenutada.
Pata ja tema kolleegide loodud kaasaegne Hopfieldi võrk kasutab graafineurovõrke (GNN) ja transformereid ehk sama arhitektuuri, mis jooksutab ChatGPT-d. Uuemad uuringud on tõestanud, et kaasaegsete tehisarude tuumik, nn tähelepanumehhanism, on matemaatiliselt samaväärne Hopfieldi võrgu moodsa versiooniga.

Algoritm (MLPF) vaatab osakestekiirendi andmepilve (müra) ja laseb infol omavahel suhelda ehk piltlikult orgu veereda, kuni moodustub selge pilt osakestest. See ongi olemuselt seesama protsess, mille eest Hopfield Nobeli sai, kuid rakendatud miljardeid kordi võimsamal skaalal.
Kaasfüüsikute skepsise murdmisele aitas kaasa 2024. aasta füüsika nobelipreemia, mille said tehisintellekti teerajajad John Hopfield ja Geoffrey Hinton. Laureaatide töö keskendus Hopfieldi võrgule – füüsikalisel energiamiinimumi printsiibil töötavale mudelile, mis suudab mustreid talletada ja taastada.
Pata jaoks oli see hetk eriliselt tähendusrikas, kuna nende töörühma kasutatav lahendus põhineb olemuslikult just sellel samal, Nobeli vääriliseks hinnatud meetodil. "See teeb südame soojaks, et need asjad on ringiga tagasi jõudnud," tõdes Pata, viidates sellele, kuidas füüsikast alguse saanud ideed liikusid arvutiteadusesse ja on nüüd kaasaegse tehisaruna füüsikas taas kanda kinnitamas.
Eesti trumpalad
Lisaks kogu eksperimenti mõjutavale andmetöötluse uuendamisele on Eesti teadlastel CMS-eksperimendi juures oma kitsam fookus – tau-leptonid. Need elektroni raskemad ja ebastabiilsemad sugulased lagunevad detektoris peaaegu silmapilkselt, tekitades keerukaid osakestevooge. Kui lihtsamaid osakesi on detektoris niisama näha, siis tau-leptonite olemasolu ja liikumine tuleb esmalt teiste osakeste põhjal rekonstrueerida.
Just see detektiivitöö teebki teema Eesti teadlastele paeluvaks. Suures teaduskollektiivis, kus töötavad tuhanded inimesed, on väikesel rühmal Joosep Pata sõnul oluline leida oma ainulaadne roll.
"Meil on mõistlikum tegeleda millegi eristuvaga. Ei ole mõtet minna tegema täpselt sedasama asja, mida teevad juba suured rühmad. Tau-leptonid on tehniliselt keerulised ja just masinõpe annab siin suurima võidu, võimaldades meil eristada neid signaale mürast palju paremini kui varem," selgitas vanemteadur.
Täpsemad mõõtmised võimaldavad füüsikutel potentsiaalselt paremini uurida Higgsi bosonite vastasmõjusid, mis võib omakorda viia vihjeteni uuest, veel avastamata füüsikast.



















