Kuidas on arvutiajastu muutnud keeleteadust?

Liina Lindström ja Maarja-Liisa Pilvik

Artikkel ilmus esmakordselt ajakirja Horisont keeleteaduse erinumbris 2020. aasta novembris (6/2020).

Keeleteadus tegeleb keelega. Aga kus või mis on see keel, millega tegeleda, ning kuidas sellele läheneda? Selles artiklis peatume põgusalt mõnel etapil keeleteaduse ajaloos ning vaatame, kuidas keeleteaduse küsimustele vastatakse tänapäeval, mil tehnoloogia areng on keeleteaduse meetodeid oluliselt laiendanud. 

Võrdlev-ajalooline meetod ja keele ajaloo uurimine

Keeltevahelisi sarnasused ja erinevused ning keelte ajalooline kujunemine on inimestele ikka huvi pakkunud, ent kirjapanekute puudumise tõttu teame enamiku keelte varasemast arengujärgust üsna vähe. Meetod, kuidas keelte varasemat ajalugu süstemaatiliselt uurida, tekkis alles 19. sajandil. Sakslane Franz Bopp (1791-1867) võrdles 1816. aastal sanskriti, kreeka, ladina ja mitme teise indoeuroopa keele verbisüsteeme ning leidis nende vahel süstemaatilisi sarnasusi, mida pidas keelesuguluseks. Jakob Grimm (1785-1863) võrdles  omakorda germaani keelte konsonante teiste indoeuroopa keeltega ning leidis süstemaatilisi häälikuvastavusi, mida hiljem nimetati “Grimmi seaduseks”. Enam-vähem samal ajal oli ungarlane Sámuel Gyarmathi (1751-1830) märganud struktuurilisi sarnasusi ungari, soome, saami, eesti ja teiste uurali keelte vahel. Tekkis arusaam keelte põlvnemisest, mida hakati hiljem kujutama keelepuuna. Keelepuu kujutab lähedasemaid keeli  kui oksi või harusid, mis pärinevad ühisest eellasest – algkeelest.  

Võrdlev-ajaloolise meetodi huvikeskmes on regulaarsed häälikuvastavused: võrreldakse sama sõnatüve esinemiskujusid sugulaskeeltes (mis ei pruugi küll täpselt sama tähendada, nt eesti kesa ‘sööti jäetud külvikorra väli’, soome kesä ‘suvi’, vadja tšesä ‘suvi’) ning selle põhjal rekonstrueeritakse häälikumuutused, mis keeltes on toimunud (selles näites: eesti keeles on kadunud vokaalharmoonia, mille tõttu ä > a, vadja keeles on eesvokaali (e) ees toimunud muutus k > tš). Lähedaste keelte häälikumuutuste süstemaatiline võrdlemine võimaldab leida, mis neist on toimunud varem, mis hiljem, ning milline varasem häälikumuutus on omakorda võimaldanud teise häälikumuutuse teket. Häälikuvastavuste võrdlemine ja muutuste süstemaatiline esitus on esimene täpne keeleajaloo uurimise meetod, mille poolest keeleteadus eristus üldisest filoloogiast.

Võrdlev-ajalooline meetod kasutas andmetena võrreldavaid sõnu ja sõnavorme sugulaskeeltes. Meetodi puuduseks on ennekõike  selle vormikesksus – võime küll rekonstrueerida näiteks sõnade ja käänete varasema esinemiskuju, aga see ei ütle meile, kuidas lauses selles käändes sõnu  kasutatakse. 

Arusaam keelte sugulusest ja suguluse puuna kujutamisest on püsinud tänapäevani. Vahepeal on teadmised ja meetodid siiski oluliselt arenenud. Nii on tänapäeval keelte ajaloo uurimisel võetud kasutusse mitmeid arvutuslikke meetodeid, mis võimaldavad keelte sarnasusi-erinevusi modelleerida arvutil. Nende abil on võimalik süstemaatiliselt kogutud ja analüüsitud paljude keelte andmete põhjal võrrelda näiteks keelte häälikulist, sõnavaralist või grammatilist sarnasust. Näiteks muidu bioloogias levinud fülogeneetiliste meetoditega saab modelleerida keelte hargnemist ühiste joonte alusel. Uurali keelte põhisõnavara uurimisel on fülogeneetiliste meetoditega leitud, et samojeedi keeled küll eristuvad selgelt muudest, ent võrreldes klassikalise keelepuuga on keelerühmad grupeeritud pisut teisiti, nagu näha joonisel. Seega võib andmepõhine lähenemine vana arusaama keelepuudest kinnitada, muuta või täiendada.

Uurali keelte põhisõnavara võrdlusel moodustunud fülogeneetiline puu, mille sõlmedes näidatud arvud väljendavad antud jagunemise tõenäosust. Mida pikemad on puu oksad, seda erinevamad on selle oksa küljes olevad keeled teistest sama taseme okstes olevatest keeltest. Jooniselt on näha, et Uurali keelte vahepealsete jagunemiste ja grupeerumiste statistiline tõendusmaterjal on nõrgem kui päris varaste (vasakul) ning hilisematel (paremal) jagunemistel. Allikas: Jyri Lehtinen, Terhi Honkola, Kalle Korhonen, Kaj Syrjänen, Niklas Wahlberg, Outi Vesakoski 2014. Behind Family Trees. – Language Dynamics and Change 4(2), 189–221.

Sõnavara kogumine ja keelenähtuste geograafiline levik

Eelmisel sajandil hoogustus keelematerjali kogumine ning väärtuslikeks andmekogudeks said sõnavarasedeleid koondavad kartoteegid. Sedelid on paberilehed, millele on kirjutatud mõni kogutud sõna, sõnavorm või pikem keelend, selle tähendus või lingvistiline kirjeldus ja sageli ka kasutusnäide, ning nende põhjal koostati nii murdeülevaateid kui ka erinevaid murde-, etümoloogia- ja kirjakeele sõnaraamatuid. 

Sõnasedelite toel kaardistati ka keelenähtuste territoriaalset levikut. Andrus Saareste (1892-1964), Eesti murdegeograafia alusepanija, on andnud sõnade ja grammatiliste joonte leviku kohta välja murdeatlaseid (nt “Eesti murdeatlas” 1938 ja 1941, ”Väike Eesti murdeatlas” 1955). Lisaks trükitud murdeatlastele on Saarestelt säilinud Uppsala Ülikooli arhiivis üle 2000 käsikirjalise kaardi, millelt leiab infot eesti murretes levinud sõnavara ja vormistiku kohta. Sellised kaardid esitasid keelenähtuste levikut esinemise ja mitte-esinemise vastandusena: näiteks lõunaeesti keeles esinevad kujud sõsar ja sisar, aga ei esine õde

Tänapäeval kättesaadavad andmekogud ja tehnilised võimalused võimaldavad ühendada erinevaid infokihte ning nõnda kuvada kaartidel korraga nii levikuinfot (“Kas esineb?”) kui ka kasutussageduse infot (“Kui palju esineb?”). Pannes näiteks kokku Andrus Saareste andmed mitu kümnendit hilisemate kasutusandmetega eesti murrete korpusest saame teada, et ehkki saartel ja Ida-Eestis on varem olnud levinud ka variant sõsar, kasutatakse seal ülekaalukalt varianti õde ning et õde kasutatakse juba ka lõunaeesti murretes, ehkki oluliselt harvem.

Andrus Saareste käsikirjaline kaart sõnade õde ja sõsar variantide levikust. Allikas: Uppsala Ülikooli arhiiv.
Kaart ühendab Andrus Saareste kogutud levikuandmed eesti murrete korpusest pärit sagedus- andmetega sõnade õde ja sõsar kasutuse kohta eesti murretes. Mida tumedam on murdeala, seda enam domineerivad seal sõna õde variandid (100% – kasutatakse ainult sõna õde; 25% – oluliselt rohkem kasutatakse sõna sõsar)

Selline lisateadmine kasutussageduste kohta võimaldab otsida põhjuseid sellele, miks mõne keelelise nähtuse kasutusala kasvab, teise oma aga kahaneb. Kohamurrete puhul peituvad vastused sageli standardkeele laienevas mõjus (nt sõna õde levik lõunaeesti murretesse) või mingi piirkonna elanike tihedates kontaktides mõne teise keele kõnelejatega. Keelendite kasutus võib varieeruda ka sõltuvalt vanusest, sotsiaalsest grupist, teksti žanrist või suhtlussituatsioonist.

Ruumiandmetega varustatud keeleandmeid on võimalik hõlpsalt ühendada muud tüüpi infoga Eesti ala kohta – näiteks etnoloogia või folkloristika andmetega (rehielamutüüpide levik või regilaulutüüpide levik), topograafiliste andmetega (metsad-sood-rabad, mis on piiranud varasematel aegadel inimeste omavahelist suhtlust) või miks mitte ka geeniandmetega. Nii on võimalik saada hoopis teistsugune pilt varasema asustusajaloo ning keeleliste ja kultuuriliste nähtuste leviku ja seotuse kohta. Ka on võimalik kaartidena esitatud keeleinfo kokku kuhjata ning jälgida paljude keelejoonte levikuinfo põhjal korraga, kus on murdepiirid tugevamad  (= paljude keelejoonte levikupiirid langevad kokku), kus nõrgemad. 

Trükitekstidest korpuste ja suurandmeteni

Veel mõnikümmend aastat tagasi esinesid tekstid meie ümber peamiselt kirjalikul kujul raamatutena või ajalehtedena ning selleks, et neid uurida, oli vaja näha kõvasti vaeva: teha väljakirjutusi, allajoonimisi, sedeleid vms, et tekstis leiduvat keelt kuidagi analüüsida. Arvutite kasutuselevõtt andis võimaluse keelt oluliselt hõlpsamalt talletada, töödelda ja analüüsida kui enne. Esimesed keeleteaduslikel eesmärkidel loodud süstematiseeritud ja korrastatud tekstikogud – korpused – koostati 1960ndatel, hiljem on neist kujunenud keeleteaduse üks levinumaid andmete allikaid.

Korpuse all mõeldakse enamasti korrastatud tekste, mis on varustatud olulise metainfoga ning on eeltöödeldud viisil, et seda oleks hõlpus keeleuurijal kasutada. Eesti keele puhul on näiteks väga oluline, et sõnadel oleks märgitud sõna põhivorm ehk lemma ja sõna vormiinfo, sest eestikeelsetel sõnadel on väga palju käände- ja pöördevorme, millega peab keelt analüüsides arvestama. Näiteks sõna tuba puhul peame arvestama erinevate tüvevariantidega (tuba, toa, tuppa, toas, tubasid ehk tube jne).

Esimene digitaalne kirjaliku keele korpus on möödunud sajandi kuuekümnendatel aastatel loodud Browni korpus, täisnimega A Standard Corpus of Present-Day Edited American English for Use with Digital Computers. See sisaldab üks miljon sõna Ameerika inglise keelt 1961. aastal avaldatud kirjalikest tekstidest ning sai eeskujuks paljudele järgnevatele korpustele, nt Briti inglise keelt sisaldavale Lancaster-Oslo/Bergeni (LOB) korpusele. Esimene eesti keele korpus loodi 1980ndate lõpul suuresti Browni korpuse eeskujul ja see sisaldas üks miljon sõna 1980ndatel avaldatud tekstidest. Tänapäeval on meil olemas korpused nii tänapäeva kirjakeele kui ka suulise keele kohta, vana kirjakeele ja eesti murrete kohta. Lisaks on korpuseks koondatud kogu eestikeelne internet.

Korpustest saab infot selle kohta, kuidas mingit keelendit (sõna, sõnaühendit, grammatilist vormi) kasutatakse, millised ühe sõna tähendused tekstides ilmnevad, millised neist on sagedased, kuidas keelendid või nende tähendused ajas muutuvad jne. Näiteks sõnal väljakutse  on tänapäeval mitu tähendust, „Eesti keele seletav sõnaraamat” toob välja kolm: 1. väljakutsumine, suuline v. kirjalik kutse. 2. proovilepanek. 3. väljakutsuv käitumine, provokatsioon. Kui vaatame eesti kirjakeele vanemaid tekste (alates 19. sajandi lõpust) sisaldavaid korpusi, leiame seal küll 1. ja 3. tähenduses kasutust, ent ‘proovilepaneku’ tähenduses esimest korda alles 1990-ndatel. 2000-ndatel on aga juba üle poole sõna väljakutse kasutustest selle tähendusega. Tõenäoliselt on see muutus toimunud ühiskondlike murrangute tõttu 1990-ndatel ning inglise challenge mõjul, et see nõukogude ühiskonnas tundmatu mõiste ühtäkki nii populaarseks sai. 

Tänu tehnoloogia kiirele arengule on tänapäeval võimalik talletada üha enam digitaalset infot, alates erinevate sensorite ja seadmete poolt kogutud andmetest kuni inimese enda kirjutatud tekstini. Kui neid andmeid on nii palju, et ilma tehniliste abivahenditeta võtaks andmete analüüsimine ja nende põhjalt üldistuste tegemine väga palju aega, nimetatakse neid ka suurandmeteks. Ehkki suurandmed ei hõlma ainult teksti, on keeleteaduse huviorbiidis olnud siiski eelkõige just suured tekstiandmed. Ühelt poolt sisalduvad suured või keskmiselt suured tekstiandmed keelekorpustes. Teiselt poolt on mis tahes tekstikogu loomine tänu keele automaatse analüüsi vahendite kättesaadavusele üha hõlpsam ning suurte korrastatud korpuste kasutamine ei ole enam tingimata vajalik. Nii uuritakse keeleteaduses tänapäeval järjest rohkem ka tekstiandmeid, mida on võimalik erinevatest digitaalsetest keskkondadest, näiteks huvipakkuvatelt veebilehtedelt ja suhtlusportaalidest, kokku koguda. Sellised andmed on üldjuhul korrastamata ning neid tuleb enne kasutamist hoolikalt eeltöödelda ja puhastada, näiteks eemaldada pildid või gifid. Kuna selliste andmete kogumiseks, puhastamiseks ja analüüsiks ei ole üht universaalset vahendit, muutuvad üha olulisemaks keeleteadlase tehnilised oskused ning võime orienteeruda ka andmeanalüüsi valdkonnas.

Korpused ja suurandmed sisaldavad materjali, mille kohta on saab teha ennekõike kvantitatiivseid kokkuvõtteid. See on toonud keeleteaduses kaasa arvutuslike ning statistiliste meetodite kasutuselevõtu. Keeleteaduses kasutatakse levinud masinõppe meetodeid näiteks selleks, et grupeerida mingite tunnuste alusel sarnaseid vaatlusi (näiteks millised murded on omavahel mingite kaassõnade kasutamise osas sarnasemad) või ennustada mingi uuritava nähtuse väärtust või klassi (näiteks millisel juhul öeldakse pigem majasse ja millisel juhul pigem majja). 

Lõpetuseks

Arvutiajastu on väga olulisel määral mõjutanud keeleteaduse metodoloogilist ja tehnilist poolt. Uued meetodid toovad kaasa uusi võimalusi ka vanadele ja klassikalistele  küsimustele vastamisel (Kuidas on keeled või murded ajalooliselt kujunenud?) ning andmete kättesaadavus ning eri tüüpi ja eri teadusaladelt pärit andmete kombineerimise võimalus loob nendele küsimustele vastamiseks täiesti uue aluse. Aga arvutiajastu on toonud keeleteadusesse ka päris uusi teemasid: suurte omaette valdkondadena on meil tänapäeval arvutilingvistika ja keeletehnoloogia, mille eesmärk on luua vahendeid loomuliku keele töötluseks.


Liina Lindström on Tartu ülikooli eesti ja üldkeeleteaduse instituudi tänapäeva eesti keele professor. Tema peamised uurimis- valdkonnad on süntaks, eesti murded, dialektoloogia, murdesüntaks, keele muutumine, keele varieerumine ja grammatika.

Maarja-Liisa Pilvik on Tartu ülikooli eesti ja üldkeeleteaduse instituudi rakendusliku dialektoloogia nooremteadur. Doktoritöös uurib verbitüvedest mine-liite abil tuletatud sõnadega moodustatud konstruktsioone eesti murretes ja läänemeresoome keeltes.

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga