Eesti keeleteadlaste abiga valmib maailma suurim mitmekeelne lugemisandmestik

Kaidi Lõo, Heidi Hein, Anastasia Šepilenko

Kas sa oled kunagi mõelnud, kuidas silmad ja aju koos töötavad, kui sa teksti loed? Iga kord kui pilk liigub üle raamatu lehekülje või arvutiekraani, toimub ajus rida keerukaid protsesse – sõnade tuvastamine, tähenduse loomine ja tähenduse sidumine varasemate teadmistega. Selliste protsesside uurimiseks kasutatakse silmaseiret. Tartu Ülikooli keeleteadlased osalevad rahvusvahelises projektis MultiplEYE, mille eesmärk on luua suurim mitmekeelne silmaseire-lugemisandmestik maailmas.

Registreeru silmaseirekatsesse siin, et saaksime täpsemalt teada, kuidas eesti keeles tekste loetakse!

Silmaseire ja lugemine

Silmaseire on meetod, mis võimaldab täpselt kindlaks teha, kuhu ja kui kaua inimene vaatab. Silmad on keerukad organid, mis tajuvad valgust ja edastavad ajule informatsiooni ümbritseva maailma kohta. Samal ajal saadab aju informatsiooni ka silmadele tagasi, näiteks selle kohta, kui oluline või vaimset pingutust nõudev oli vaadeldud informatsioon, nt tekst, pilt või mõni muu stiimul. See olulisus või pingutus peegeldub inimese silmade liikumises.

Pilgujälgija on seade, millega saab silmade liikumist ning pupillide suuruse muutumist mõõta. Selleks kasutab pilgujälgija spetsiaalset kaamerat, mis suudab teha silmadest kuni 2000 pilti sekundis ning infrapunavalgust, mida inimene ei märka ega tunne. Infrapunavalgus on suunatud silma võrkkestale, kus ta peegeldub tagasi. Kaamera salvestab peegelduse ning arvuti algoritmid arvutavad peegelduste põhjal täpselt välja pilgu asukoha. Teksti lugemisel salvestab pilgujälgija reaalajas iga pilgu liikumise ehk sakaadi ja pilgu peatumise ehk fiksatsiooni.

Lugemine on nii kiire ja igapäevane oskus, et kipume seda iseenesestmõistetavana võtma. Eesti keele keskmine lugemiskiirus on vaikse lugemise puhul umbes 200 sõna minutis. Samas peatutakse mõnel sõnal kauem, mõnest hüpatakse üle või liigutakse tekstis hoopis tagasi, et mõnda tekstiosa paremini mõista. Need liikumismustrid annavad teadlastele infot, mis on lugejale teksti mõistmisel ja tõlgendamisel keerulised või olulised. Lühikesed, lihtsad ja sagedased sõnad nagu ja või mina ei vaja palju tähelepanu – need jätavad silmad lugemisel vahele või liiguvad neilt kiiresti edasi. Pikemad ja keerulisemad sõnad nagu rahvusvaheline ja informatsioonitöötlus võtavad aga lugemisel rohkem aega ning neil peatub silm ka kauem. Samuti võivad mitmeti tõlgendatavad sõnad või laused panna teatud tekstiosi uuesti lugema.. Samas pupillid peegeldavad lugeja emotsionaalset seotust tekstiga. Kui loeme põnevat või üllatavat teksti, laienevad meie pupillid — see näitab, et oleme loetust emotsionaalselt kaasa haaratud.

Allikas: SR Research

MultiplEYE

Rahvusvaheline Euroopa Liidu poolt rahastatud COSTi teadusvõrgustik MultiplEYE uurib koostöös Tartu Ülikooli keeleteadlastega, kuidas 30 eri keeles lugemine täpselt toimub. Teadusprojekti on kaasatud sajad uurijad üle kogu maailma, kes kõik koguvad andmeid selle kohta, kuidas eri emakeelega inimesed tekste loevad. 

Projektis on esindatud nii suuremad germaani keeled, nagu inglise ja saksa keel, mille kohta on juba ka varasemalt olemas silmaseire-lugemise andmeid, kui ka eksootilisemad keeled, näiteks makedoonia või grööni keel, mille kohta taolisi lugemise andmeid veel hetkel ei ole. Eesti keele kohta on varasemalt silmaseirega lugemisandmeid kogutud MECO projekti raames, mis hõlmas lühikeste entsüklopeediliste tekstide lugemist. MultiplEYE projekti eripära seisneb selles, et kasutatavad tekstid on eri pikkusega ja keerukusastmega ning pärinevad ka väga erinevatest žanritest – alates ilukirjandusest kuni populaarteaduse ja seadusandlike tekstideni. Lisaks on eesmärk kaasata erineva tausta ja oskustega lugejaid, et uurida ka individuaalseid erinevusi. Vaata projekti tutvustavat videot siit ja loe täpsemalt andmebaasi koostamise kohta siit.

Miks on projekt oluline?

Kuigi silmaseire on tõhus tööriist ning lugemise uurimisel juba laialt kasutusel, puuduvad andmestikud, mis hõlmaksid ka väiksemaid keeli, nagu näiteks eesti keel. MultiplEYE eesmärk on luua suurim avalik mitmekeelne lugemisandmestik, mida saavad kasutada lisaks keeleteadlastele ka näiteks psühholoogid, arvutiteadlased ja haridusteadlased. Selline andmestik aitab mõista,  millised lugemismustrid on universaalsed ja millised pigem keelespetsiifilised. Näiteks kas erinevad kirjasüsteemid muudavad lugemiskiirust ja -mustreid? Milliseid sõnu ja lausekonstruktsioone loetakse eri keeltes kauem? Lisaks saab lugemismustrite mõõtmisandmeid kasutada näiteks masintõlke ja õppetarkvarade täiustamiseks: kui on teada, millised lausekonstruktsioonid põhjustavad lugejale raskusi, saab masintõlkemudelit treenida eelistama lihtsaimaid ja loomulikumaid vasteid.

Ka sinu panus on vajalik!

Eesti keeles lugemise kohta kogutakse andmeid Tartu Ülikooli eesti ja üldkeeleteaduse instituudi psühholingvistika teaduri Kaidi Lõo juhtimisel. Eesti keele andmete kokkusaamiseks vajame erineva taustaga eesti keelt emakeelena rääkijaid lugemiskatses osalema – täpsemalt on eesmärgiks testida 2025. aasta lõpuks sada lugejat. Katse ülesanne on lihtne: lugeda arvutiekraanilt eesti keeles erinevaid populaarteaduslikke ja ilukirjanduslikke tekste, samal ajal kui pilgujälgija mõõdab sinu silmade liikumist. Lisaks tuleb lahendada erinevaid nuputamisülesandeid, mis annab meile infot selle kohta, kuidas mälu ja üldine keeletaust lugemisega seotud on. 

Registreeru silmaseirekatsesse siin, et saaksime täpsemalt teada, kuidas eesti keeles tekste loetakse ja millest on põhjustatud erinevused lugemisel!