Bakalaureuse-
ja magistritööde teemasid
Viimati muudetud 7.11.2012
Teema valikuks palun saatke e-kiri
juhendajale.
Keeletehnoloogial on mitmeid
silmapaistvaid rakendusi,
nagu masintõlge ühest keelest teise, elektroonilisest tekstist kõne
sünteesimine (näiteks e-kirjade või ajalehtede ettelugemine, kui silmad on muu
tegevusega hõivatud, või teksti ettelugemine pimedatele); vastupidine rakendus
- kõnest elektroonilise teksti moodustamine, mida kasutatakse automaatses
diktofonis (näiteks autoga koosolekule sõites loete oma eelseisva kõne
diktofoni ja saate selle salvestada elektroonilise tekstina, mida hiljem on
võimalik töödelda mingi tekstitoimetiga).
Eesti keele jaoks on mõned ülesanded lahendatud
(näiteks suudab arvuti sünteesida üsnagi talutavat eestikeelset kõnet), paljud
aga lahendamata (näiteks masintõlge eesti keelest ja eesti keelde).
Keeletehnoloogiaga tegeleb Tartu ülikoolis
mitteformaalne üksus - arvutilingvistika
uurimisrühm, kuhu kuuluvad ühelt poolt arvutiteaduse instituudi töötajad
(s.t matemaatikud-informaatikud) ning teiselt poolt filosoofiateaduskonna eesti
ja üldkeeleteaduse instituudi töötajad (keeleteadlased-arvutilingvistid). Me
tegeleme eeskätt eesti keele automaattöötluse
probleemidega.
Teemasid pakuvad nii arvutiteaduse
instituudi kui ka eesti ja üldkeeleteaduse instituudi õppejõud ja teadurid.
Vt ka poster.
1. Juhendajad arvutiteaduse
instituudist (MTAT)
Päivi Kristiina Jokinen (Helsingi ülikool, Tartu
Ülikooli
külalisprofessor)
kjokinen at ut.ee
(Juhendab kas inglise või soome keeles.)
Seotud projekt (vt Eesti Teaduse Infosüsteem ETIS):
ETF8958 Multimodaalne suhtlus - videoandmete kogumise, analüüsi ja
kasutamise kultuuridevahelised ja tehnoloogilised aspektid.
Teemad
Mare Koit
mare.koit at ut.ee
http://math.ut.ee/~koit/
DIALOOGSÜSTEEMID, EESTI DIALOOGIKORPUS JA SELLE TÖÖTLEMISE TARKVARA
Seotud projektid (vt
ETIS):
EKT5 Eestikeelse dialoogi pragmaatika analüsaator,
ETF9124 Suhtlusagendi modelleerimine ja Eesti dialoogikorpus.
* Tagasiside automaatne
tuvastamine eestikeelsetes dialoogides.
Vt Daniel Jurafsky & James H. Martin.
An introduction to
Natural Language Processing, Computational Linguistics, and Speech
Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.)
Vt ka Eesti dialoogikorpus.
EESTIKEELSE TEKSTI GENEREERIMINE
TEHISINTELLEKT
Kaili Müürisep kaili.muurisep at ut.ee
Heiki-Jaan Kaalep heiki-jaan.kaaleput.ee Magistritööde teemad, vt lähemalt
kaalep.txt
Kadri Muischnek kadri.muischnek at ut.ee Neeme Kahusk neeme.kahusk at ut.ee
* Tarkvara lokaliseerimine: Moblin
* Piiratud eesti keelega seotud teemad
* Viidete grammatika eesti keele jaoks
* Jalgpalli-alane FrameNet eesti keele jaoks.
Sven Aller sven.aller at ut.ee
* Ülevaade (vabavaralistest) API-dest, mis on seotud tõlkimisega eesti
keelde või eesti keelest (koos näidisrakendustega, mis neid kasutavad).
Margus Treumuth margus.treumuth at ut.ee
* Meetodite võrdlus automaatses õigekirjavigade paranduses
(Jaro-Winkler vs Noisy-Channel).
Indrek Jentson indrek.jentson at ut.ee
* Eesti tekstikorpuste andmeformaadi unifitseerimine.
Vt
http://www.cl.ut.ee/korpused/
* Teadmusbaasi Wordnet andmete täiendamine
automaatselt genereeritud küsimustike abil.
Vt http://www.cl.ut.ee/ressursid/teksaurus/ Heili Orav heili.orav at ut.ee Kokkuleppel üliõpilasega arvutisõnastikega seonduv, nt Eesti wordneti täiendamine. Vt http://www.cl.ut.ee/ressursid/teksaurus/ Tiit Hennoste tiit.hennoste
at ut.ee * Netikeele korpuse
kogumise programmid.
Sulev Iva sulev.iva at ut.ee ja
Meelis
Mihkla meelis.mihkla at eki.ee (Eesti Keele Instituut)
Lisatud 9.10.2012
Andriela Rääbis andriela.raabis at ut.ee Suulise eesti keele korpusega seonduv. Olga Gerassimenko olga.gerassimenko
at ut.ee Suulise eesti keele korpusega seonduv.
Suulise eesti keele korpusega seonduv. Krista Mihkels krista.mihkels at ut.ee Suulise eesti keele korpusega
seonduv. Kadri Vare kadri.vare at ut.ee * Lingvistilise konteksti
reeglite
lisamoodul sõnatähenduste ühestamise programmile Semyhe
(programmeerimiskeeles Perl). Ülesande
kirjeldus sunopsis.rtf Kadri Vider kadri.vider at ut.ee * Pärisnimede semantiline
ühestamine Haldur
Õim *Lausesemantika probleemid
*Sõnade (taas kindlates tähendustes) esinemised erinevates eesti keele
korpustes ja paralleelkorpustes - laused, pikemad tekstilõigud. Kogutud
andmete esialgne süstematiseerimine etteantud tunnuste järgi.
Iga bakalaureusetöö tegija saaks oma kindla loendi sõnu ja omad
kriteeriumid-tööülesanded.
Raul
Sirel Vt
http://en.wikipedia.org/wiki/Sentiment_analysis
Kaarel Kaljurand kaljurand at gmail.com (Zürichi ülikool)
Valdkonnad:
Anto Veldre anto.veldre at cert.ee (Riigi Infosüsteemide Arenduskeskus,
infoturbeintsidentide käsitlemise osakond)
*Automated analysis of malware related internet domain names.
Ülesande sisu: domeeninimede analüüs sellisel viisil,
mis võimaldaks tuvastada nn halbu (viiruste levitamiseks kasutatavaid)
saite. Ülesanne jääb kuhugi logianalüüsi ja lauseparsimise vahepeale,
peaks ühendama kummagi võtted ja elemendid.
Ülesande kirjeldus
*Infoandmise strateegiad eestikeelsetes telefonidialoogides ja
nende automaatne märgendamine.
Materjal:
eestikeelsed infotelefonikõned, kus on märgendatud
dialoogiaktid
(soov, info
andmine jms). Vt Daniel Jurafsky & James H. Martin.
An introduction to
Natural Language Processing, Computational Linguistics, and Speech
Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.)
Vt ka Eesti dialoogikorpus.
* Lõplikud automaadid dialoogitöötluses.
Vt
http://cslu.cse.ogi.edu/toolkit/pubs/pdf/mctear_ICSLP_98.pdf
* Elliptiliste lausete genereerimine.
Koblenz-Landau ülikooli professor
Karin Harbusch on koostanud programmi, mis suudab saksa- ja
hollandikeelsetest lausetest genereerida elliptilisi (väljajättelisi)
lauseid. Lõputöö eesmärk on täiendada ja parandada
reegleid, et programmi saaks rakendada ka eesti keelele.
Vt
Eesti keele käsiraamat -
ellips.
Karin
Harbuschi publikatsioonid 2009 jj.
Teemad kokkuleppel. Vt näiteks siit.
http://math.ut.ee/~kaili/
http://www.cl.ut.ee/inimesed/hkaalep/
1. Paralleel-subtiitrite adekvaatsuse automaatne kontroll ja parandamine
2. Teksti ortograafilise esitusviisi automaatne tuvastamine
3. Sõnade lühenemine vestluses
http://www.cl.ut.ee/inimesed/kmuis/
http://www.cl.ut.ee/inimesed/nkahusk/
Moblini arhitektuur (http://www.moblin.org)on loodud pidades silmas
eelkõige miniarvuteid (netbook), aga ka väiksemaid arvuteid (Mobile
Internet Device) või koguni autode meelelahutuskeskusi (In Vehicle
Infotainment systems). Moblini tuum on ehitatud Linuxi kernelile, tuumale
on ehitatud kasutajaliides. Ülesandeks on Moblini rakenduste tõlkimine
eesti keelde ja kohandamine eesti lokaadiga. Kasutatakse veebipõhist
rakendust Transifex (http://transifex.org/).
Piiratud keel (controlled natural language) on saadud loomuliku keele
sõnavara ja grammatika piiramise teel, eesmärgiga vähendada keerukust ja
mitmesust, kas keele õppimise lihtsustamise eesmärgil või vaheastmena
teisendamiseks formaalsesse keelde. Vt ka Kaarel Kaljuranna doktoritöö
(http://hdl.handle.net/10062/4876)
Viidete grammatika (Link grammar, http://www.link.cs.cmu.edu/link/) on
originaalne süntaksiteooria loodud algselt inglise keele jaoks. Süsteem
annab igale sisestatud lausele süntaktilise struktuuri, mis koosneb
erinevatest viidetest, mis seovad omavahel sõnade paare. Seda grammatikat
on katsetatud ka saksa, hiina ja vene keele puhul. Süsteemi kasutatakse ka
AbiWordi grammatikakontrollijas.
Kicktionary (http://www.kicktionary.de/) on freimisemantikal põhinev
jalgpalli-alane leksikaalne ressurss, mis on organiseeritud lausete ja
freimide alusel hierarhilisse struktuuri. Vt ka FrameNet
(http://framenet.icsi.berkeley.edu).
Töö eesmärk on võrrelda kahte
meetodit õigekirjavigade paranduses: Jaro-Winkler vs Noisy-Channel.
Testide tegemisel on võimalik kasutada kirjavigadega dialoogikorpust.
Jaro-Winkleri osas on olemas toimiv realisatsioon, mida on rakendatud
dialoogsüsteemis. Tudeng saab seda realisatsiooni kasutada. Vajadusel
saab tudeng kasutada dialoogide kogumise vahendit. Lisaks saab tudeng
vajadusel rakendada mõlemaid meetodeid dialoogsüsteemis.
Olemasolevate failikujul hoitavate
eestikeelsete korpuste struktuuri analüüs, ühtse ja kõigi korpuste aspekte
arvestava XML-struktuuri (standardi) väljatöötamine ning korpuste failide
teisendamine uuele formaadile.
Probleemiks on olemasolevate
andmete vahel puuduvad 'horisontaalsed' seosed, mille leidmiseks tuleks
sõnastada küsimusi ja püüda leida vastuseid kas infootsingu (Information
Retrieval) abil või kasutades veebirakendust ja kasutajate/vastajate abi.
2. Juhendajad eesti ja üldkeeleteaduse
instituudist (FLEE)
http://www.cl.ut.ee/inimesed/horav/
http://www.cl.ut.ee/inimesed/thenno/
* Eesti keele morfoloogilise analüsaatori kohandamine suulise kõne
korpusele.
Vt suulise ja
arvutisuhtluse labor.
* Võru keele kõnesüntees. Vt kirjeldus.
* Eesti-võru masintõlge.
http://www.cl.ut.ee/inimesed/araabis/
Riina Kasterpalu
riina.kasterpalu at ut.ee
http://www.cl.ut.ee/inimesed/kvider/
* Tundmatute liitsõnade semantiline ühestamineÜlesande kirjeldus sonatahendusteYhest.rtf
http://www.cl.ut.ee/inimesed/hoim/
Ülesannete kirjeldused
* Etteantud sõnaloendi ja kriteeriumide järgi andmete kogumine sõnade
tähenduste ja kasutuste kohta üks- ja mitmekeelsetest elektroonilistest
sõnastikest, andmebaasidest ja korpustest (nt valida-koguda etteantud
sõnade teatud tähenduste kirjeldused Eesti keele seletussõnaraamatus,
Teksauruses, tõlkevasted Eesti-vene sõnaraamatus, Inglise-eesti
sõnastikus jne.
Vt keeleveeb.
Hoiakuanalüüs. Lisatud 7.11.12
Vt ka Siim-Toomas
Marran. Sentimentaalne analüüs eestikeelse peavoolumeedia veebiartiklite
kommentaaride baasil. Bakalaureusetöö. TÜ, arvutiteaduse inst, 2012. http://comserv.cs.ut.ee/forms/ati_report/
3. Juhendajad
väljastpoolt
* Eestikeelse kõne automaattuvastuse rakendused nutitelefonidele.
* Grammatiline raamistik ja eesti keel.
* Controlled English for knowledge representation,
vt
teemasid
NB! Mitmed teemad on seotud eestikeelse kõne automaattuvastusega ja
selle rakendamisega mobiilsetes operatsioonisüsteemides (eelkõige
Android).
Vt ka imc104-yadav.pdf
<= Keeletehnoloogia töörühm