Uus algoritm aitab leida turistidel pinget pakkuvad reisisihtkohad
Tallinna Tehnikaülikoolis doktoritöö kaitsnud Ago Luberg töötas selle raames välja algoritmi, mis soovitab veebis surfavale reisihuvilisele osavamalt neid vaatamisväärsusi ja külastamist väärt kohti, mida inimene näha tahab.
Infost pulbitsevas maailmas orienteerumiseks kasutatakse veebis üha sagedamini automaatsüsteemidel põhinevaid soovitusi. Sama tehakse turismi ja reisiplaneerimise vallas. Enamasti keskenduvad seal kasutatavad soovitussüsteemid aga kaubanduslikele tahkudele, pakkudes näiteks soodsamaid hotelle, restorane, reisipileteid jms.
Luberg keskendus oma töös seevastu inimsilma jaoks põnevamatele ja huvitavamatele sihtkohtadele. Seejuures lähtus ta inimeste endi tekitatud andmetest. "Tuhanded turistid üle maailma on loonud ühisteadmise sellest, mis läheb inimestele korda. Kui mõne soovituse puhul võetakse aluseks mõne eksperdi arvamust, siis meie jaoks ekspert ongi tavaline inimene," laiendas lektor.
Peamine rõhk töös oli turismiobjektide andmete kogumisel ja töötlemisel. Töö raames tegeles ta erinevate soovitussüsteemide, nagu Sightsplanner, Sightsmap ja Visit Estonia veebilehe soovitussüsteemi, disainimise ja arendamisega ning nende jaoks andmete kogumise, töötlemise ja integratsiooniga. See võimaldas uurida viise eri automaatsüsteemide n-ö nõrkuste parandamiseks, mis võimaldaks luua senisest senisest täiuslikumaid süsteeme.
Algse idee autor oli Lubergi sõnul suuresti doktoritöö juhendaja Tanel Tammet. "Siin võib mängu tuua isikliku kogemuse. Olles turismisoovitajaid pikemalt jälginud ja neid ka katsetanud, ei pakkunud ükski meile seda, mida me oleks päriselt tahtnud saada. Seega me hakkasime kaudselt lahendama probleemi, et kuidas siis saaks luua soovitaja, mis võtaks arvesse just turistide tagasisidet ehk kasutajate andmeid," meenutas värske doktor.
Erinevad süsteemid võtavad arvesse erinevaid tahke. Näiteks mõnes piirkonnas tehtud fotode rohkus näitab koha visuaalset atraktiivsust. Vastavate kohtade Wikipedia külastuste logide arv näitab, kui hästi neid tuntakse ja sisenemised süsteemidesse nagu Foursquare/Swarm tegelikku külastuste arvu. Eriti pakkus Lubergile ja Tammetile huvi andmebaasides topeltobjektide tuvastamine.
Praktilised väljundid
Ühe olulise tulemusena näitas Ago Luberg kolleegidega töö raames, kuidas saab turismiobjektidele sobivushinde arvutamisel rakendada tõenäosuslikku ja hägusloogikat, kasutades selleks ebakindlaid kategooriaid, ontoloogiaid ja tõestajapõhiseid algoritme. Aluseks võeti seejuures olemasolev turismiobjektide andmestik ja lihtsasti esitatavad kasutaja-eelistused.
Teiseks töötasid nad masinõppemeetodite põhjal välja süsteemi, mille abil saab tuvastada samu reaalseid objekte kirjeldavad kirjeid, mis on aga pärit erinevatest andmeallikatest. Näiteks leiti loodud algoritmiga Tallinna söögikohtade andmestiku pealt õppides Riia turismiobjektide, sh muuseumid ja kunstigaleriid jms, kattuvus täpsusega 98 protsenti. Võrdlusena oli täpsus käsitsi seadistatud parameetritega märksa väiksem -- 85 protsenti.
Luberg märkis, et ühes või teises riigis toimivaid soovitussüsteeme on loodud varemgi. Koos Tammetiga seadis ta aga eesmärgiks, et nende tulemusi peab saama rakendada üle terve maailma. "Üldiselt on lihtne leida infot Tallinna või Riia turismobjektide kohta, aga kui soovida teha midagi sellist, mis kataks kohe automaatselt suurema osa maailmast, peab mõtlema suuremalt. Seega oli meil kriteerium, et andmed peavad olema globaalsed. Selliseid andmehulki, mis oleks kättesaadavad ja kataks väga suurt ala, polnud väga palju, viitas lektor.
Kolmandaks lõi Luberg algoritmi, millega tuvastatakse turismiobjektide nimi ja kategooria. Algoritm võttis aluseks kasutajate sisestatud kirjeldused objektide kohta, kusjuures saadud andmete põhjal oli võimalik integreerida andmed erinevatest andmeallikatest. Näiteks, kui kasutati Panoramio piltide allkirju, suutis algoritm leida üles umbes 56 protsenti Suurbritannia ja Prantsusmaa Wikipedias esinenud turismiobjektidest.
"Mulle endale tundus kõige põnevam, kui me lisaks piltide järgi maailmas populaarsete asukohtade leidmisele suutsime piltide pealkirjade järgi tuvastada objektide tüübid ja nimed. Seda oli huvitav näha, et kui nii mõnigi kirjutas pildi pealkirjaks midagi sellist nagu "mina ja torn", siis suurem osa allkirjastas pilte päris objekti nimega," sõnas Luberg. See näitab tema arvates ehedalt, et inimesed suudavad teha ühiselt väga häid asju.
Loe doktoritööd täies mahus Tallinna Tehnikaülikooli digikogus. Tööd juhendas tarkvarateaduse instituudi professor Tanel Tammet.
Toimetaja: Jaan-Juhan Oidermaa