Bakalaureuse-
ja magistritööde teemasid 2011/2012
Viimati muudetud 17.02.2012
Teema valikuks palun saatke e-kiri
juhendajale.
Keeletehnoloogial on mitmeid
silmapaistvaid rakendusi,
nagu masintõlge ühest keelest teise, elektroonilisest tekstist kõne
sünteesimine (näiteks e-kirjade või ajalehtede ettelugemine, kui silmad on muu
tegevusega hõivatud, või teksti ettelugemine pimedatele); vastupidine rakendus
- kõnest elektroonilise teksti moodustamine, mida kasutatakse automaatses
diktofonis (näiteks autoga koosolekule sõites loete oma eelseisva kõne
diktofoni ja saate selle salvestada elektroonilise tekstina, mida hiljem on
võimalik töödelda mingi tekstitoimetiga).
Eesti keele jaoks on mõned ülesanded lahendatud
(näiteks suudab arvuti sünteesida üsnagi talutavat eestikeelset kõnet), paljud
aga lahendamata (näiteks masintõlge eesti keelest ja eesti keelde).
Keeletehnoloogiaga tegeleb Tartu ülikoolis
mitteformaalne üksus - arvutilingvistika
uurimisrühm, kuhu kuuluvad ühelt poolt arvutiteaduse instituudi töötajad
(s.t matemaatikud-informaatikud) ning teiselt poolt filosoofiateaduskonna eesti
ja üldkeeleteaduse instituudi töötajad (keeleteadlased-arvutilingvistid). Me
tegeleme eeskätt eesti keele automaattöötluse
probleemidega.
Teemasid pakuvad nii arvutiteaduse
instituudi kui ka eesti ja üldkeeleteaduse instituudi õppejõud ja teadurid.
Vt ka poster.
1. Juhendajad arvutiteaduse
instituudist (MTAT)
Päivi Kristiina Jokinen (Helsingi ülikool, Tartu
Ülikooli
külalisprofessor)
kjokinen at ut.ee
(Juhendab kas inglise või soome keeles.)
Mare Koit
mare.koit at ut.ee
http://math.ut.ee/~koit/
DIALOOGSÜSTEEMID,
EESTI DIALOOGIKORPUS JA
SELLE TÖÖTLEMISE TARKVARA
Seotud projektid:
EKT5 Eestikeelse dialoogi pragmaatika analüsaator,
ETF7503 Suhtlusstrateegiad suhtlusmudelis: eestikeelse dialoogi
modelleerimine arvutil,
vt Eesti Teaduse Infosüsteem (ETIS).
* Märgendusprogrammi Annotation
Graph Toolkit
kohandamine
eestikeelsetes dialoogides dialoogiaktide (tervitus, soov,
küsimus jt) märgendamiseks http://agtk.sourceforge.net/
TEHISINTELLEKT
Kaili Müürisep kaili.muurisep at ut.ee
ARVUTISÜNTAKS
AUTOMAATNE SISUKOKKUVÕTETE TEGEMINE
SUULISE KEELE TEEMAD
Heiki-Jaan Kaalep heiki-jaan.kaaleput.ee Bakalaureusetöö teema
* Programm, mis otsustab,
kas
tekst (kuitahes lühike, kas või 1 sõna) on eestikeelne või mitte.
Magistritööde teemad, vt lähemalt
kaalep.txt
UUS! Lisatud 16.09.2011
Kadri Muischnek kadri.muischnek at ut.ee
* Võrreldava korpuse loomine Wikipedia tekstide baasil
(sobib nii arvutilingvistile kui keeletehnoloogile)
* Kollokatsioonitugevuse mõõdikute võrdlemine (sobib pigem
keeletehnoloogile)
Neeme Kahusk neeme.kahusk at ut.ee
* Tarkvara lokaliseerimine: Moblin
* Piiratud eesti keelega seotud teemad
* Viidete grammatika eesti keele jaoks
* Jalgpalli-alane FrameNet eesti keele jaoks.
* Nimede ühestaja
Margus Treumuth treumuth at ut.ee Heili Orav heili.orav at ut.ee Kokkuleppel üliõpilasega arvutisõnastikega seonduv, nt Eesti wordneti täiendamine. Vt http://www.cl.ut.ee/ressursid/teksaurus/ Tiit Hennoste tiit.hennoste
at ut.ee Netikeele korpuse
kogumise programmid.UUS! Lisatud 13.09.2011
Andriela Rääbis andriela.raabis at ut.ee Suulise eesti keele korpusega seonduv. Olga Gerassimenko olga.gerassimenko
at ut.ee Suulise eesti keele korpusega seonduv.
Suulise eesti keele korpusega seonduv. Krista Mihkels krista.mihkels at ut.ee Suulise eesti keele korpusega
seonduv. Kadri Kerner kadri.kerner at ut.ee * Lingvistilise konteksti
reeglite
lisamoodul sõnatähenduste ühestamise programmile Semyhe
(programmeerimiskeeles Perl). Ülesande
kirjeldus sunopsis.rtf Kadri Vider kadri.vider at ut.ee * Pärisnimede semantiline
ühestamine Haldur
Õim
* Dialoogiaktide (tervitus, soov,
küsimus jt) automaatne tuvastamine eestikeelsetes dialoogides. Vt Eesti dialoogikorpus.
* Tagasiside automaatne
tuvastamine eestikeelsetes dialoogides.
Vt Daniel Jurafsky & James H. Martin.
An introduction to
Natural Language Processing, Computational Linguistics, and Speech
Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.)
Vt ka Eesti dialoogikorpus.
* Dialoogides alamdialoogide (nt küsimuse täpsustamine,
vastuse täpsustamine) märgendamise programm.
Materjal:
eestikeelsed infotelefonikõned, kus on märgendatud dialoogiaktid
(soov, info
andmine jms). Vt Daniel Jurafsky & James H. Martin.
An introduction to
Natural Language Processing, Computational Linguistics, and Speech
Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.)
Vt ka Eesti dialoogikorpus.
*Infoandmise strateegiad eestikeelsetes telefonidialoogides ja
nende automaatne märgendamine.
Lisatud 6.10.2011
Materjal:
eestikeelsed infotelefonikõned, kus on märgendatud
dialoogiaktid
(soov, info
andmine jms). Vt Daniel Jurafsky & James H. Martin.
An introduction to
Natural Language Processing, Computational Linguistics, and Speech
Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.)
Vt ka Eesti dialoogikorpus.
* Eestikeelsete suuliste dialoogide kogumise programm "võlur Ozi"
meetodil. Vt M. Valdisoo, E. Vutt.
"Võlur Ozi" tehnika ja eesti keeles
suhtlev arvuti. A&A, 2002,
nr 5. Vt kirjalike dialoogide kogumisest Tiit Käbin. Eestikeelsete dialoogide
kogumise veebirakendus. Bakalaureusetöö. 2011.
* Lõplikud automaadid dialoogitöötluses.
Vt
http://cslu.cse.ogi.edu/toolkit/pubs/pdf/mctear_ICSLP_98.pdf
Teemad kokkuleppel. Vt näiteks siit.
Muudetud 17.02.2012
http://math.ut.ee/~kaili/
* Fraasipiiride tuvastamine statistilise meetodiga.
* Eesti keele süntaksi fragmente HPSG-s või LFG-s.
* Uudisvoost sisukokkuvõtte tegemine.
* Uue meedia keel.
http://www.cl.ut.ee/inimesed/hkaalep/
Kasutada tuleks algoritmi, mis ei kasuta
sõnastikku. Näiteks "ettevaatamise algoritmi" (for$
algorithm) Markovi
peitmudeli
korral
http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html
1. Paralleel-subtiitrite adekvaatsuse automaatne kontroll ja parandamine
2. Teksti ortograafilise esitusviisi automaatne tuvastamine
3. Sõnade lühenemine vestluses
http://www.cl.ut.ee/inimesed/kmuis/
Juhendada võib ka Heiki-Jaan Kaalep
Materjal: automaatselt morfoloogiliselt ühestatud uue meedia keele korpus
(uue meedia korpuse kohta vt
http://www.cl.ut.ee/korpused/segakorpus/uusmeedia/). Töö seisneb
automaatselt morfoloogiliselt analüüsitud teksti kontrollimises,
morfoloogilise ühestaja saagise ja täpsuse leidmises ning vigade
analüüsis.
Juhendajad Kaarel Veskis (kaarel.veskis at
ut.ee) ja Kadri Muischnek
Võrreldava korpuse loomiseks on vaja teisendada eesti keele Koondkorpuse
http://www.cl.ut.ee/korpused/segakorpus/ kujule eestikeelsed Wikipedia
tekstid (või mingi nende alamhulk) ja neile vastavad tekstid vähemalt ühes
võõrkeeles (nt inglise, vene) ning varustada samanimelised
(samateemalised) tekstid üksteisele viitavate märgenditega.
Juhendajad Kristel Uiboaed (kristel.uiboaed at
ut.ee) ja Kadri Muischnek
Töö peab vastama küsimusele, milline kollokatsioonitugevust mõõtev
statistik sobib kõige paremini eesti keele ühendverbide (nt jääb üle,
annab alla, sööb ära jms) leidmiseks tekstikorpusest. Mis on kollokatsioon
ja kuidas teda tekstidest leitakse, selle kohta saab lugeda:
http://www.rakenduslingvistika.ee/ul/files/ERYa6.19_Uiboaed.pdf (eesti
keeles)
http://purl.org/stefan.evert/PUB/Evert2007HSK_extended_manuscript.pdf]
(inglise keeles, väga põhjalik)
http://www.cl.ut.ee/inimesed/nkahusk/
Moblini arhitektuur (http://www.moblin.org)on loodud pidades silmas
eelkõige miniarvuteid (netbook), aga ka väiksemaid arvuteid (Mobile
Internet Device) või koguni autode meelelahutuskeskusi (In Vehicle
Infotainment systems). Moblini tuum on ehitatud Linuxi kernelile, tuumale
on ehitatud kasutajaliides. Ülesandeks on Moblini rakenduste tõlkimine
eesti keelde ja kohandamine eesti lokaadiga. Kasutatakse veebipõhist
rakendust Transifex (http://transifex.org/).
Piiratud keel (controlled natural language) on saadud loomuliku keele
sõnavara ja grammatika piiramise teel, eesmärgiga vähendada keerukust ja
mitmesust, kas keele õppimise lihtsustamise eesmärgil või vaheastmena
teisendamiseks formaalsesse keelde. Vt ka Kaarel Kaljuranna doktoritöö
(http://hdl.handle.net/10062/4876)
Viidete grammatika (Link grammar, http://www.link.cs.cmu.edu/link/) on
originaalne süntaksiteooria loodud algselt inglise keele jaoks. Süsteem
annab igale sisestatud lausele süntaktilise struktuuri, mis koosneb
erinevatest viidetest, mis seovad omavahel sõnade paare. Seda grammatikat
on katsetatud ka saksa, hiina ja vene keele puhul. Süsteemi kasutatakse ka
AbiWordi grammatikakontrollijas.
Kicktionary (http://www.kicktionary.de/) on freimisemantikal põhinev
jalgpalli-alane leksikaalne ressurss, mis on organiseeritud lausete ja
freimide alusel hierarhilisse struktuuri. Vt ka FrameNet
(http://framenet.icsi.berkeley.edu).
Kui tekstis on nimeüksused leitud, siis see ei ole veel kõik. Kui meil on
näiteks nimi Kalev, siis jääb lahtiseks, kas on tegemist inimese nimega,
kommivabrikuga või spordiseltsiga. Nimede ühestaja peaks sellised
probleemid lahendama.
2. Juhendajad eesti ja üldkeeleteaduse
instituudist (FLEE)
http://www.cl.ut.ee/inimesed/horav/
http://www.cl.ut.ee/inimesed/thenno/
http://www.cl.ut.ee/inimesed/araabis/
Riina Kasterpalu
riina.kasterpalu at ut.ee
http://www.cl.ut.ee/inimesed/kvider/
* Tundmatute liitsõnade semantiline ühestamine* Modulaarse sõnatähenduste ühestamise
süsteemi projekteerimine.
Ülesande kirjeldus sonatahendusteYhest.rtf
http://www.cl.ut.ee/inimesed/hoim/
*Lausesemantika probleemid
Ülesannete kirjeldused
Kaarel Kaljurand kaljurand at gmail.com (Zürichi ülikool)
Valdkonnad:
Anto Veldre anto.veldre at cert.ee (Riigi Infosüsteemide Arenduskeskus,
infoturbeintsidentide käsitlemise osakond)
*Automated analysis of malware related internet domain names. Ülesande sisu: domeeninimede analüüs sellisel viisil,
mis võimaldaks tuvastada nn halbu (viiruste levitamiseks kasutatavaid)
saite. Ülesanne jääb kuhugi logianalüüsi ja lauseparsimise vahepeale,
peaks ühendama kummagi võtted ja elemendid.
Ülesande kirjeldus
* Eestikeelse kõne automaattuvastuse rakendused nutitelefonidele.
UUS! Lisatud 18.11.11
* Grammatiline raamistik ja eesti keel.
* Controlled English for knowledge representation,
vt
teemasid
Täiendatud
18.11.2011.
NB! Mitmed teemad on seotud eestikeelse kõne automaattuvastusega ja
selle rakendamisega mobiilsetes operatsioonisüsteemides (eelkõige
Android).
Vt ka imc104-yadav.pdf
<= Keeletehnoloogia töörühm