Kristina Koppeli doktoritöö kaitsmine

Liina Lindström

Esmaspäeval, 23. märtsil kaitses eesti ja üldkeeleteaduse instituudis doktoritööd Kristina Koppel teemal “Näitelausete korpuspõhine automaattuvastus eesti keele õppesõnastikele“. Töö juhendajateks olid Jelena Kallas (Eesti Keele Instituut) ja Raili Pool (Tartu Ülikool), oponendiks oli Annekatrin Kaivapalu Ida-Soome ülikoolist. Tegemist on praktilist laadi artikliväitekirjaga, mis on välja kasvanud vajadusest leida sõnastikele tegelikul keelekasutusel (korpustel) põhinevaid näitelauseid, mis oleksid piisavalt kõnekad ka iseseisvana. Igaüks, kes on korpusest näiteid otsinud, teab, et see pole üldse lihtne ülesanne: laused on ju ikka sündinud kontekstis ja seetõttu pole iseseisvana hästi arusaadavad – mõni on liiga elliptiline, mõni liiga pikka ja keeruline, mõni sisaldab roppusi. Sõnastiku jaoks on vaja automaatselt üles leida head näited, millel neid hädasid poleks. Väitekiri on leitav siit.

Koroonaviiruse leviku tõkestamiseks sisse viidud eriolukorra algusest oli kaitsmise ajaks kulunud nädal. Vähemalt koroonapiirangute esimeses laines oli ülikool korduvalt kinnitanud, et kaitsmised saavad toimuda, ent kaasata ei tohi laiemat avalikkust. Ka oponent, kes TÜs reeglina välismaalt tuleb, ei saa eriolukorras kaitsmiskoosolekust osa võtta. Samas tuleb mingil viisil tagada nii oponendi osalus kui ka kaitsmiskoosoleku avalikkusele kättesaadavaks tegemine. Eriolukorra sisseviimisest kaitsmiseni oli meil Kristina kaitsmiseni umbes nädal katsetamiseks, millist vahendit kaitsmisel kasutada.

Tartu Ülikool toetab Microsofti korporatsiooni toodete kasutust, seetõttu  valisime kaitsmiskoosoleku pidamiseks esmalt MS Teamsi keskkonna. MS Teams sobib näiteks koosolekute või seminaride  läbiviimiseks ning sellega meil mõningane kogemus juba oli. Alternatiivne vahend Zoom (mida kasutas samal päeval arvutiteaduse instituut kaitsmise läbiviimisel) meile kättesaadav polnud, sest ülikool ei ole pidanud vajalikuks keskselt selle litsentsi osta. Paljud peavad seda paremaks vahendiks kui Teamsi. Meie kogemus praeguseks ütleb, et Teams toimib hästi. Teamsi nõrgad kohad on seotud eelkõige sellega, et kõik osalised on üsna võrdsed ning kogenematud osalejad võivad kergesti kogu kaitsmisprotseduuri müra sisse tuua (mikrofon või video avatud). Esimesed katsetused tegimegi Teamsiga. Mõned päevad hiljem selgus, et ülikool toetab ka Teams Live Eventi kasutamist, mis sobib paremini konverentsilaadsete sündmuste ülekandmiseks. See tundus meile isegi paremini sobivat, sest neid osalisi, kes doktoritöö kaitsmisel rääkima peavad, on vähe – kaitsmiskoosoleku juhataja, kaitsja ja oponent. Avalikkus sai vaikselt kaitsmist jälgida ja küsimusi saab esitada chati kaudu. Lisaks on Teams Live Eventil produtsent, kes valib, millist osalejat parasjagu näidata – seega pilt on rohkem kontrolli all kui Teamsil. Kaitsja ja oponent kõnelesid omavahel reaalajas, avalikkus sai jälgida 30 sekundilise viivitusega – nagu näiteks ka teles. Nõrgaks kohaks võib osutuda võrgu ja Teamsi ülekoormatus – õnneks kaitsmisel me seda siiski kogema ei pidanud. Kaitsmise-eelsel reedel vaatasime koos IT-osakonna esindajatega läbi, kuidas sündmus ning senati saali seadmed toimivad. Lahkusime teadmises, et lootust on, et kõik õnnestub.

Esmaspäevahommikuse üllatusena tuli  kantsleri sekkumine, et 10 inimest (kaitsja ja komisjon) on liiga palju peahoone jaoks, üle 6 inimese ei tohiks kokku saada.  Ilmselgelt oli ülikooli sees mingi suhtlushäire, sest kaitsmiskomisjonides alla 6 inimese ei saagi olla – samas oli ülikool mitmel korral välja öelnud, et on sobiv, kui komisjon on kohal. Meil on komisjonis 14 inimest – seda on tõesti liiga palju kogenemiseks sellisel ajal. Enamik liikmeid plaanis ka kohale tulla, kuigi pakkusime võimalust ülekannet kodus jälgida – küllap kogenematusest uute keskkondadega. Plaani muutus ei olnud kindlasti just viiruse takistamise seisukohalt kõige targem, ent kaitsmine oli siiski vaja päästa – otsustasime kolida oma auditooriumisse Jakobi 2 hoones. Igal juhul kaitsmine toimus, ülekanne ei vedanud alt, publik kuulis ja nägi, mis toimus – kaitsmine läks oluliste viperusteta ning Kristinale omistati doktorikraad. Palju õnne!

Kaitsmine oli jälgitav veebis Teams Live Eventi vahendusel.

Järgmisel päeval, 24. märtsil kuulutas vabariigi valitsus välja uued piirangud ning kaitsmiskomisjoni enam kohale kutsuda ei saaks. Meie järgmine kaitsmine toimub 24. aprillil, mil  Ilze Tālberga kaitseb doktoritööd “On the equivalents of the Latvian verbal prefixes in Estonian”. Praegu plaanime selle läbi viia vaid veebi teel, kas Teamsi või Teams Live Eventi  kasutades, sest üle kahe inimese koguneda ei tohi. Loodetavasti laabub ka seekord.

Kristina Koppeli doktoritöö lühitutvustus:

Näitelause täidab sõnastikus kindlat eesmärki, aidates aru saada sõna tähendusest ja illustreerides sõna erinevaid kasutuskontekste. Näitelausete põhiallikas on mahukas tekstikorpus, kust aga käsitsi on näitelauset leida väga keeruline. Elektroonilise leksikograafia arenguga on Eestisse jõudnud mitmed töövahendid, mis aitavad automaatselt tuvastada eri sõnastike jaoks vajalikku infot, sealhulgas näitelauseid. Väitekirjas uuritakse, missugused parameetrid iseloomustavad Eesti Keele Instituudis koostatud sõnastike “Eesti keele sõnaraamat 2019”, “Eesti keele põhisõnavara sõnastik 2014”, “Eesti keele naabersõnad 2019” näitelauseid ning “Eesti keele A1−C1 õpikute korpuse 2018” lauseid. Uurimuse eesmärk on välja töötada meetod, mis võimaldab neid parameetreid arvestades korpusest automaatselt tuvastada eesti keele õppijatele sobivaid lauseid. Töö keskmes on reeglipõhine lähenemine, mida rakendatakse korpuspäringusüsteemi Sketch Engine integreeritud tööriista GDEX ehk Good Dictionary Examples näitel. Parameetrite häälestamiseks on osaliselt kasutatud ka masinõppe elemente. Sõnastiku näitelausete ja õpikulausete analüüs näitas, et hea eesti keele näitelause peab olema täislause ja vastama muuhulgas järgmistele parameetritele: on 4–20 sõnet pikk; ei sisalda sõnesid, mis on pikemad kui 20 tähemärki; ei alga teatud sõnaliikidega (nt sidesõnaga) ega tagasi viitavate sõnade (nt sellepärast) või sõnapaaridega (nt sellisel puhul); ei sisalda vulgaarseid ja halvustavaid sõnu, madala sagedusega sõnu jmt. Uurimuse tulemusena on loodud “Eesti keele õppekorpus 2018 (etSkELL)”, mis sisaldab ainult välja töötatud parameetritele vastavaid lauseid. Õppekorpus on omakorda aluseks eesti keele õppekeskkonnale Sketch Engine for Estonian Language Learning ehk etSkELL ja veebilausetele Eesti Keele Instituudi keeleportaalis Sõnaveeb.

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga