Mis on arvutilingvistika?

Arvutilingvistika (AL), ka arvutuslingvistika, kompuuterlingvistika, ingl. k. computational linguistics; saksa k. Computerlinguistik.

AL - interdistsiplinaarne teadusala lingvistika (e. keeleteaduse) ja informaatika (e. arvutiteaduse) vahepeal, mille eesmärgiks on keele automaattöötluseks vajalike keele kirjeldus-, analüüsi- ja sünteesimeetodite väljatöötamine ja arvutitel realiseerimine.

(Vrd. H. Õim. Inimene, keel ja arvuti ehk kompuuterlingvistika. Tln, Valgus, 1983.)

Arvutilingvistika komponendid
 
Teoreetiline Rakenduslik
teooriate püstitamine inimese keeleliste võimete kohta ja nende kontrollimine tarkvara (arvutiprogrammide) koostamine keele (teksti ja kõne) automaattöötluseks
  Näiteks: Mare Koit. Mis on masintõlge ja kus temast kasu on. - Arvutimaailm, 2003, nr 4, lk 51-55.
  • keelelise info säilitamine ja automaatne otsimine (sh tekstiandmebaasidest, sellega tegeleb arvutileksikoloogia)
  • suhtlus arvutiga loomulikus keeles (ekspertsüsteemidega, andmebaasidega)
  • kõnetuvastus ja kõnesüntees, kõnelejatuvastus
  • jpm.
Kõik need rakendused on seotud valdkonnaga, mida praegu nimetatakse keeletehnoloogiaks.

Vt lisaks
Heiki-Jaan Kaalep. Keeletehnoloogia - mis see on. Arvutimaailm, 1994, nr 7, lk 54-55.
Haldur Õim. Keeletehnoloogia maailmas ja Eestis. Arvutimaailm, 2002, nr 8,  lk 8.
Haldur Õim, Mare Koit. Keeletehnoloogia maailmas ja Eestis. A&A, 5, 2002, lk 7-12.

 

Arvutilingvistika arengulugu
 
I Masintõlge (MT)

1949 Warren Weaver "Translation" 

1954 1. MT eksperiment Georgetowni ülikoolis USA-s: arvuti IBM tõlkis 200-sõnalise teksti vene keelest inglise keelde

1966 ALPAC (Loomulike keelte automaattöötluse konsultatiivkomitee USA rahvusliku TA juures) aruanne: pessimism MT võimalikkuse suhtes

1950ndad
II Noam Chomsky generatiivsed grammatikad

1956 "Three models for the description of language"

1957 "Syntactic structures"

1965 Transformatsioonigrammatika mõiste

Regulaarsed üritused: COLING alates 1965 

Organisatsioonid: ACL 1968

1960ndad
III Küsimus-vastussüsteemid

1972: T. Winograd SHRDLU (modelleeris roboti kätt "kuubikute maailmas", suhtlus inglise keeles); W. Woods LUNAR (Kuu kivimiproovide identifitseerimine, suhtlus inglise keeles)

Ekspertsüsteemid DENDRAL 1965, MYCIN 1976

Andmebaasid loomuliku keele liidesega, infootsisüsteemid

Tihe seos tehisintellektiga!

1970ndad
IV Unifikatsioonigrammatikad

FUG (Functional Unification Grammar) M. Kay 1979 

GPSG (Generalized Phrase Structure Grammar) 

G. Gazdar 1970ndate II pool;

G. Gazdar & E. Klein & G. Pullum& I. Sag 1985

LFG (Lexical Functional Grammar) 
R. Kaplan & J. Bresnan 1982
HPSG (Head driven Phrase Structure Grammar) 
<= GPSG, LFG 

C. Pollard 1984; C. Pollard & I. Sag 1987

Unifikatsioonigrammatikates kasutatakse lingvistiliste teadmiste esitamiseks nn. tunnuste struktuure (sõna iseloomustatakse grammatiliste tunnuste komplektiga), millele rakendatakse unifitseerimist (2 struktuuri asendatakse 3-nda, üldisema struktuuriga; sellest ka nimetus). Eesmärk: väike hulk (väga keerulisi) reegleid.

AL kui eriala hakati õpetama ülikoolides.

1980ndad
V Keeletehnoloogia (language technology)

Keeletehnoloogia on arvutilingvistika praktiline pool. Kasutab arvutilingvistikas väljatöötatud teooriaid, et luua rakendusi (arvutiprogramme), mis võimaldavad inimkeelt arvuti abil töödelda ja mõista. Tänapäeval on keeletehnoloogia tuntumateks valdkondadeks masintõlge, arvutileksikoloogia, dialoogisüsteemid, kõnetuvastus ja kõnesüntees.

Ka teoreetiline arvutilingvistika ei tule toime arvutiteta (keerulised formalismid).

Alates 1990


Kasulikke viiteid:

  • Riiklik programm Eesti keeletehnoloogia (2011-2017)
  • Riiklik programm Eesti keele keeletehnoloogiline tugi (2006-2010)
  • Keeleveeb
  • Keelevara
  • Eesti keele käsiraamat
  • Õigekeelsussõnaraamat
  • Tartu Ülikooli arvutilingvistika uurimisrühm
  • Keeletarkvarafirma Filosoft
  • Eesti Keele Instituut
  • TTÜ küberneetika instituudi foneetika ja kõnetehnoloogia labor
  • Zürichi ülikooli arvutuslingvistika instituut
  • Koblenz-Landau ülikooli arvutuslingvistika rühm, vt http://www.uni-koblenz-landau.de/koblenz/fb4/institute/icv
  • Arvutuslingvistika Saarimaa ülikoolis
  • Keeletehnoloogia Saksa Tehisintellekti Uurimiskeskuses
  • FoLLI - Euroopa Loogika, Keele ja Informatsiooni Assotsiatsioon
  • ELSNET - Euroopa Keele ja Kõne Võrk
  • LDC - Lingvistiliste Andmete Konsortsium
  • ELRA - Euroopa Lingvistiliste Ressursside Assotsiatsioon

  •  

    Viited kontrollitud 29.08.11