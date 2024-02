Tartu Ülikooli masinõppe kaasprofessori Meelis Kulli sõnul tuleb kõigepealt mõista, miks vajab tehisintellekt suurtes kogustes andmeid. "Mõtleme näiteks ChatGPT-sarnaste suurte keelemudelite peale. Nende treenimiseks on vaja tohututes kogustes tekste ehk suurt hulka näiteid keele kasutamisest. Mida rohkem on mudelil tekste võtta, seda paremini ta keelekasutust jäljendab," selgitas Kull ERR-ile.

Lisaks niinimetatud juturobotitele tegelevad generatiivsed tehisintellektid tänapäeval ka teksti põhjal piltide (Midjourney) ning video (Sora) loomisega. "Selleks, et treenida mudeleid, mis oskaks videoga midagi peale hakata, läheb vaja väga suurt hulka videoid. Tiktok annab Hiinale tohutu videobaasi, mille peal järjest paremaid tehisintellektimudeleid treenida," tõdes Kull.

Ainuüksi Euroopa Liidus on Tiktokil kuus peaaegu 136 miljonit aktiivset kasutajat. Möödunud aastal nimetati Tiktok EL-i digiteenuste määruse alusel väga suureks digiplatvormiks. Eesti välisluureameti (VLA) värske aastaraamatu järgi on Tiktoki omanikfirma seotud Hiina kommunistliku parteiga. VLA andmetel kasutab Hiina videoplatvormi kasutajate kohta teabe kogumiseks, telefonis nuhkimiseks ning tehisintellekti treenimiseks.

Hiina tehisintellekt vajab Tiktoki andmeid Lääne inimeste mõistmiseks

VLA aastaraamatus seisab: "Hiinal on vaja juurdepääsu erineva päritoluga inimeste visuaalsetele ja käitumuslikele andmetele, et seeläbi arendada globaalse võimekusega täiuslikku tehisintellekti. Hiinast kogutud andmed sellist võimalust ei pakuks, sest inimeste väljanägemine ning kultuurilisest taustast tingitud käitumismuster erinevad suurest osast muust maailmast oluliselt."

Meelis Kulli sõnul vajabki Hiina eelkõige lääne inimeste käitumuslikke andmeid. "Isegi kui Euroopa inimesed oma videosid Tiktoki üles ei laeks, saaks Hiina ikkagi enda elanikkonna pealt tohututes kogustes videomaterjali koguda. Seal on väga ulatuslikud valvekaamerate võrgustikud ja Hiinas kasutavad Tiktoki aktiivselt sajad miljonid inimesed. Juba kõige selle pealt on võimalik väga tugevaid tehisintellekti süsteeme treenida," tõi ta välja.

Enda elanikkonna pealt kogutud andmetest puudub Kulli sõnul just lääne kultuuri vaatepunkt. "Seda saabki Hiina meie käest kogutud videodega juurde. Eks videosid saab ka mujalt avalikust veebist, näiteks YouTube'ist, aga see pole isegi ligilähedale võrreldav selle kogusega, mida nad läbi Tiktoki saavad," sõnas teadlane.

Mida saab aga tehisintellekt üldse lühikestest naljavideodest õppida? Võiks vaielda, et need pole enamasti kuigi informatiivsed ja kannavad pigem meelelahutuslikku sisu. "Mudel näeb, kes seal videos on, mida nad teevad ja võib sellest näiteks kokku panna tekstilise kirjelduse. Sellise info saab ühendada juba muudest allikatest kogutud teabega," tõi Kull näite.

"Ühe inimese kohta on võimalik tema erinevate andmete kokku panemisel saada hirmutavalt hea pilt sellest, kes ta on, mida ta teha oskab ja mis talle meeldib. Niimoodi saabki käitumuslike andmeid koguda ja modelleerida. See on selgelt üks ohukoht," lisas ta. Üksikisikute ja masside käitumise pealt on aga võimalik juba teatud määral tulevikku ennustada. Käitumuslike andmeid kasutatakse näiteks psühholoogias, turunduses, finantsteenustes, aga ka julgeolekus.

Majanduslik ja sõjaline eelis

Kui Hiina saab võimekuse väga tugevaid videoanalüüsi tehisintellekte luua, siis leiavad need Kulli hinnangul kindlasti ka sõjatööstuses rakendust. Samuti aitab see luua üha paremaid enda elanikkonna jälgimiseks mõeldud rakendusi. Juba praegu on uuematel kaameratel pildituvastuse võimekus. Edaspidi hakkavad tehisintellektid üha paremini mõistma, mida näiteks valvekaamera parajasti näeb.

Teisest küljest saab sellistele tehisintellektisüsteemidele toetudes luua Kulli sõnul veelgi paremat üldist tehisintellekti tulevikus, mis võib kujuneda näiteks majanduslikult oluliseks. "Praegu käib ju maailmas pidev võidujooks paremate tehisintellektide ehitamiseks. Hiina, saades rohkem ja paremaid andmeid, omabki konkurentidega võrreldes paremat lähtepunkti," võttis ta kokku.

Kui on üks asi, mida Kulli sõnul lähiajaloost kindlasti õppima peaks, siis seda, et tehisintellekti tulevikku on väga raske ennustada. "Arengu kiirust on tõesti väga keeruline ennustada. Need inimesed, kes ChatGPT arendamisega tegelesid, isegi nemad ei teadnud viis aastat varem, et mudelitel hakkab selline võimekus olema, nagu me praegu näeme," tõdes ta.

"Praegu on väga raske öelda, mis hakkab saama näiteks viie aasta pärast. On selge, et lisaks teksti analüüsimisele hakkavad tehisintellektid järjest enam piltide ja vidode analüüsiga tegelema. Alles hiljaaegu lasi ChatGPT looja, OpenAI, välja uue mudeli nimega Sora, mis genereerib ülimalt relistlikke videosid. Selliseid uusi mudeleid tuleb viimastel aastatel juba väga sagedasti," märkis Kull.

Üks suundi, kus tehisintellekti valdkonnas üritatakse hetkel võimekust tõsta, on Kulli sõnul niinimetatud arutlusvõime. "ChatGPT ikkagi eriti ei mõtle midagi enne, kui ta järgmist sõna ütleb. Tal annab väga vähese järelemõtlemisega pidevalt uusi sõnu välja. Nüüd üritatakse luua süsteeme, kus järelemõtlemine on sügavam. See võib tuua võimekustes olulisi uusi arenguid. Kuulujuttude järgi suudab OpenAi salapärane projekt Q natukene rohkem mõelda, pisut sarnaselt sellele kuidas tehisintellekt malet mängides mitu käiku ette mõtleb," sõnas Kull.