Õpilasuurimus: eesti veebis seostatakse naisi kunstiga ja mehi teadusega

$content['photos'][0]['caption'.lang::suffix($GLOBALS['category']['lang'])]?>
Bratus tegi kindlaks, et tema treenitud sõnavektorite mudelid sisaldavad levinud soolisi stereotüüpe. Autor/allikas: Trevor Coultart/Flickr (CC BY-NC-ND 2.0)

Soostereotüübid ehk soo konkreetsete ametite, valdkondade ja isegi omadussõnadega seostamine elavad eesti keele korpuste analüüsi põhjal visalt edasi.

Tallinna Reaalkooli 136.a reaal-programmeerimise õppesuuna õpilane Severin Bratus otsis sõnavektoritest eesti keele sõnade vahel soostereotüüpilisi seoseid. Selleks analüüsis ta soospetsiifiliste ja sooneutraalsete sõnade vektoresituste suhteid kasutades testi nimega Word Embedding Association Test (WEAT). 

Sõnavektor ise  on levinud masinõppe vahend, mis kujutab sõnu reaalarvuliste vektoritena. Sõnavektorite vahelised geomeetrilised seosed näitavad aga vastavate sõnade omavahelisi tähenduslikke semantilisi seoseid. Kasutatatud test lubas arvuliselt väljendada, kui tugev on seos mingite mõistete vahel.

Katsetes kasutas Bratus kolme sõnevektorite mudelit, mida treenis mahuka eestikeelse veebikorpuse etTenTen põhjal. Korpus koosneb 686 000 internetist alla laetud eestikeelsest veebilehest ja sisaldab ühtekokku 270 miljonit sõna.

Bratus tegi kindlaks, et tema treenitud sõnavektorite mudelid sisaldavad levinud soolisi stereotüüpe. Ta koostas selleks 12 sõnahulka, kus iga hulga sõnad olid ühendatud ühega järgmistest teemadest: mees, naine, meeste nimed, naiste nimed, karjäär, pere, teadus, kunst, meeldiv, ebameeldiv, aktiivne, passiivne.

Kõige tugevamini avaldus Bratuse uuritud soostereotüüpidest seos soospetsiifiliste eesnimede ja vastanduse teadus vs kunst vahel ehk mehenimed seostusid rohkem teaduse ja naisenimed kunstiga. Samuti oli vastanduses karjäär vs pere seotud karjäär rohkem meeste ja pere naistega. Vastanduses meeldiv vs ebameeldiv, seostusid naiste nimed rohkem sõnaga meeldiv. Vastanduses aktiivne vs passiivne oli aktiivne seotud rohkem meestega.

Bratuse sõnul näitavad tema tulemused, et uuritud mudelite kasutamine professionaalses kontekstis ei ole soovitatav, kui tahetakse saavutada ehitatava süsteemi erapooletust meeste ja naiste suhtes. Alternatiivina soovitab Bratus kasutada sõnavektoreid, kus soolist kallutatust ei teki treenimisalgoritmi omaduste tõttu.

Tallinna Reaalkooli 136.a reaal-programmeerimise õppesuuna õpilane Severin Bratus pälvis selleaastasel õpilaste teadustööde riiklikul konkursil III preemia.

Toimetaja: Airika Harrik

Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: