Bakalaureuse- ja magistritööde teemasid 2011/2012

Viimati muudetud 17.02.2012
Teema valikuks palun saatke e-kiri juhendajale.

Keeletehnoloogial on mitmeid silmapaistvaid rakendusi, nagu masintõlge ühest keelest teise, elektroonilisest tekstist kõne sünteesimine (näiteks e-kirjade või ajalehtede ettelugemine, kui silmad on muu tegevusega hõivatud, või teksti ettelugemine pimedatele); vastupidine rakendus - kõnest elektroonilise teksti moodustamine, mida kasutatakse automaatses diktofonis (näiteks autoga koosolekule sõites loete oma eelseisva kõne diktofoni ja saate selle salvestada elektroonilise tekstina, mida hiljem on võimalik töödelda mingi tekstitoimetiga).
Eesti keele jaoks on mõned ülesanded lahendatud (näiteks suudab arvuti sünteesida üsnagi talutavat eestikeelset kõnet), paljud aga lahendamata (näiteks masintõlge eesti keelest ja eesti keelde).
Keeletehnoloogiaga tegeleb Tartu ülikoolis mitteformaalne üksus - arvutilingvistika uurimisrühm, kuhu kuuluvad ühelt poolt arvutiteaduse instituudi töötajad (s.t matemaatikud-informaatikud) ning teiselt poolt filosoofiateaduskonna eesti ja üldkeeleteaduse instituudi töötajad (keeleteadlased-arvutilingvistid). Me tegeleme eeskätt eesti keele automaattöötluse probleemidega.
Teemasid pakuvad  nii arvutiteaduse instituudi kui ka eesti ja üldkeeleteaduse instituudi õppejõud ja teadurid.

Vt ka poster. 



1. Juhendajad arvutiteaduse instituudist (MTAT)

Päivi Kristiina Jokinen (Helsingi ülikool, Tartu Ülikooli külalisprofessor)
kjokinen at ut.ee
(Juhendab kas inglise või soome keeles.)


Mare Koit  mare.koit at ut.ee
http://math.ut.ee/~koit/


DIALOOGSÜSTEEMID, EESTI DIALOOGIKORPUS JA SELLE TÖÖTLEMISE TARKVARA
Seotud projektid:
EKT5 Eestikeelse dialoogi pragmaatika analüsaator,
ETF7503 Suhtlusstrateegiad suhtlusmudelis: eestikeelse dialoogi modelleerimine arvutil,
vt Eesti Teaduse Infosüsteem (ETIS).

* Märgendusprogrammi Annotation Graph Toolkit kohandamine eestikeelsetes dialoogides dialoogiaktide (tervitus, soov, küsimus jt) märgendamiseks http://agtk.sourceforge.net/ Vt Eesti dialoogikorpus.
* Dialoogiaktide (tervitus, soov, küsimus jt) automaatne tuvastamine eestikeelsetes dialoogides. Vt Eesti dialoogikorpus.
* Tagasiside automaatne tuvastamine eestikeelsetes dialoogides. Vt Daniel Jurafsky & James H. Martin. An introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.) Vt ka Eesti dialoogikorpus.
* Dialoogides alamdialoogide (nt küsimuse täpsustamine, vastuse täpsustamine) märgendamise programm. Materjal: eestikeelsed infotelefonikõned, kus on märgendatud dialoogiaktid (soov, info andmine jms). Vt Daniel Jurafsky & James H. Martin. An introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.) Vt ka Eesti dialoogikorpus.
*Infoandmise strateegiad eestikeelsetes telefonidialoogides ja nende automaatne märgendamine. Lisatud 6.10.2011
Materjal: eestikeelsed infotelefonikõned, kus on märgendatud dialoogiaktid (soov, info andmine jms). Vt Daniel Jurafsky & James H. Martin. An introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.) Vt ka Eesti dialoogikorpus.
* Eestikeelsete suuliste dialoogide kogumise programm "võlur Ozi" meetodil. Vt M. Valdisoo, E. Vutt. "Võlur Ozi" tehnika ja eesti keeles suhtlev arvuti. A&A, 2002, nr 5. Vt kirjalike dialoogide kogumisest Tiit Käbin. Eestikeelsete dialoogide kogumise veebirakendus. Bakalaureusetöö. 2011.
* Lõplikud automaadid dialoogitöötluses. Vt  http://cslu.cse.ogi.edu/toolkit/pubs/pdf/mctear_ICSLP_98.pdf

TEHISINTELLEKT
Teemad kokkuleppel. Vt näiteks siit. Muudetud 17.02.2012


Kaili Müürisep kaili.muurisep at ut.ee
http://math.ut.ee/~kaili/

ARVUTISÜNTAKS
* Fraasipiiride tuvastamine statistilise meetodiga.
* Eesti keele süntaksi fragmente HPSG-s või LFG-s.

AUTOMAATNE SISUKOKKUVÕTETE TEGEMINE
* Uudisvoost sisukokkuvõtte tegemine.

SUULISE KEELE TEEMAD
* Uue meedia keel.


Heiki-Jaan Kaalep heiki-jaan.kaaleput.ee
http://www.cl.ut.ee/inimesed/hkaalep/

 

Bakalaureusetöö teema

* Programm, mis otsustab, kas tekst (kuitahes lühike, kas või 1 sõna) on eestikeelne või mitte.
Kasutada tuleks algoritmi, mis ei kasuta sõnastikku. Näiteks "ettevaatamise algoritmi" (for$ algorithm) Markovi peitmudeli korral  http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html

Magistritööde teemad, vt lähemalt kaalep.txt UUS! Lisatud 16.09.2011
1. Paralleel-subtiitrite adekvaatsuse automaatne kontroll ja parandamine
2. Teksti ortograafilise esitusviisi automaatne tuvastamine
3. Sõnade lühenemine vestluses


Kadri Muischnek kadri.muischnek at ut.ee
http://www.cl.ut.ee/inimesed/kmuis/

* Uue meedia tekstide (st internetikeele) automaatse morfoloogilise ühestamise kvaliteedi uuring (sobib nii arvutilingvistile kui keeletehnoloogile)
Juhendada võib ka Heiki-Jaan Kaalep
Materjal: automaatselt morfoloogiliselt ühestatud uue meedia keele korpus (uue meedia korpuse kohta vt http://www.cl.ut.ee/korpused/segakorpus/uusmeedia/). Töö seisneb automaatselt morfoloogiliselt analüüsitud teksti kontrollimises, morfoloogilise ühestaja saagise ja täpsuse leidmises ning vigade analüüsis.

* Võrreldava korpuse loomine Wikipedia tekstide baasil (sobib nii arvutilingvistile kui keeletehnoloogile)
Juhendajad Kaarel Veskis (kaarel.veskis at ut.ee) ja Kadri Muischnek
Võrreldava korpuse loomiseks on vaja teisendada eesti keele Koondkorpuse http://www.cl.ut.ee/korpused/segakorpus/ kujule eestikeelsed Wikipedia tekstid (või mingi nende alamhulk) ja neile vastavad tekstid vähemalt ühes võõrkeeles (nt inglise, vene) ning varustada samanimelised (samateemalised) tekstid üksteisele viitavate märgenditega.

* Kollokatsioonitugevuse mõõdikute võrdlemine (sobib pigem keeletehnoloogile)
Juhendajad Kristel Uiboaed (kristel.uiboaed at ut.ee) ja Kadri Muischnek
Töö peab vastama küsimusele, milline kollokatsioonitugevust mõõtev statistik sobib kõige paremini eesti keele ühendverbide (nt jääb üle, annab alla, sööb ära jms) leidmiseks tekstikorpusest. Mis on kollokatsioon ja kuidas teda tekstidest leitakse, selle kohta saab lugeda:
http://www.rakenduslingvistika.ee/ul/files/ERYa6.19_Uiboaed.pdf (eesti keeles)
http://purl.org/stefan.evert/PUB/Evert2007HSK_extended_manuscript.pdf] (inglise keeles, väga põhjalik)


Neeme Kahusk neeme.kahusk at ut.ee
http://www.cl.ut.ee/inimesed/nkahusk/

* Tarkvara lokaliseerimine: Moblin
Moblini arhitektuur (http://www.moblin.org)on loodud pidades silmas eelkõige miniarvuteid (netbook), aga ka väiksemaid arvuteid (Mobile Internet Device) või koguni autode meelelahutuskeskusi (In Vehicle Infotainment systems). Moblini tuum on ehitatud Linuxi kernelile, tuumale on ehitatud kasutajaliides. Ülesandeks on Moblini rakenduste tõlkimine eesti keelde ja kohandamine eesti lokaadiga. Kasutatakse veebipõhist rakendust Transifex (http://transifex.org/).

* Piiratud eesti keelega seotud teemad
Piiratud keel (controlled natural language) on saadud loomuliku keele sõnavara ja grammatika piiramise teel, eesmärgiga vähendada keerukust ja mitmesust, kas keele õppimise lihtsustamise eesmärgil või vaheastmena teisendamiseks formaalsesse keelde. Vt ka Kaarel Kaljuranna doktoritöö (http://hdl.handle.net/10062/4876)

* Viidete grammatika eesti keele jaoks
Viidete grammatika (Link grammar, http://www.link.cs.cmu.edu/link/) on originaalne süntaksiteooria loodud algselt inglise keele jaoks. Süsteem annab igale sisestatud lausele süntaktilise struktuuri, mis koosneb erinevatest viidetest, mis seovad omavahel sõnade paare. Seda grammatikat on katsetatud ka saksa, hiina ja vene keele puhul. Süsteemi kasutatakse ka AbiWordi grammatikakontrollijas.

* Jalgpalli-alane FrameNet eesti keele jaoks.
Kicktionary (http://www.kicktionary.de/) on freimisemantikal põhinev jalgpalli-alane leksikaalne ressurss, mis on organiseeritud lausete ja freimide alusel hierarhilisse struktuuri. Vt ka FrameNet (http://framenet.icsi.berkeley.edu).

* Nimede ühestaja
Kui tekstis on nimeüksused leitud, siis see ei ole veel kõik. Kui meil on näiteks nimi Kalev, siis jääb lahtiseks, kas on tegemist inimese nimega, kommivabrikuga või spordiseltsiga. Nimede ühestaja peaks sellised probleemid lahendama.


Margus Treumuth treumuth at ut.ee


 


2. Juhendajad eesti ja üldkeeleteaduse instituudist (FLEE)

Heili Orav  heili.orav at ut.ee
http://www.cl.ut.ee/inimesed/horav/

Kokkuleppel üliõpilasega arvutisõnastikega seonduv, nt Eesti wordneti täiendamine.

Vt http://www.cl.ut.ee/ressursid/teksaurus/


Tiit Hennoste tiit.hennoste at ut.ee
http://www.cl.ut.ee/inimesed/thenno/

Netikeele korpuse kogumise programmid.UUS! Lisatud 13.09.2011


Andriela Rääbis andriela.raabis at ut.ee
http://www.cl.ut.ee/inimesed/araabis/

Suulise eesti keele korpusega seonduv.


Olga Gerassimenko olga.gerassimenko at ut.ee

Suulise eesti keele korpusega seonduv.



Riina Kasterpalu riina.kasterpalu at ut.ee

Suulise eesti keele korpusega seonduv.


Krista Mihkels krista.mihkels at ut.ee

Suulise eesti keele korpusega seonduv.


Kadri Kerner  kadri.kerner at ut.ee

* Lingvistilise konteksti reeglite lisamoodul sõnatähenduste ühestamise programmile Semyhe (programmeerimiskeeles Perl).

 

Ülesande kirjeldus sunopsis.rtf

 


Kadri Vider kadri.vider at ut.ee
http://www.cl.ut.ee/inimesed/kvider/

* Pärisnimede semantiline ühestamine
* Tundmatute liitsõnade semantiline ühestamine

* Modulaarse sõnatähenduste ühestamise süsteemi projekteerimine.

Ülesande kirjeldus sonatahendusteYhest.rtf


Haldur Õim haldur.oim at ut.ee
http://www.cl.ut.ee/inimesed/hoim/

*Lausesemantika probleemid
Ülesannete kirjeldused


3. Juhendajad väljastpoolt

Kaarel Kaljurand kaljurand at gmail.com (Zürichi ülikool)

Valdkonnad:
* Eestikeelse kõne automaattuvastuse rakendused nutitelefonidele. UUS! Lisatud 18.11.11
* Grammatiline raamistik ja eesti keel.
* Controlled English for knowledge representation,
vt teemasid Täiendatud 18.11.2011. NB! Mitmed teemad on seotud eestikeelse kõne automaattuvastusega ja selle rakendamisega mobiilsetes operatsioonisüsteemides (eelkõige Android).


Anto Veldre anto.veldre at cert.ee (Riigi Infosüsteemide Arenduskeskus, infoturbeintsidentide käsitlemise osakond)

*Automated analysis of malware related internet domain names. Lisatud 25.10.2010

Ülesande sisu: domeeninimede analüüs sellisel viisil, mis võimaldaks tuvastada nn halbu (viiruste levitamiseks kasutatavaid) saite. Ülesanne jääb kuhugi logianalüüsi ja lauseparsimise vahepeale, peaks ühendama kummagi võtted ja elemendid.

Ülesande kirjeldus
Vt ka imc104-yadav.pdf


<= Keeletehnoloogia töörühm