Bakalaureuse- ja magistritööde teemasid

Viimati muudetud 7.11.2012
Teema valikuks palun saatke e-kiri juhendajale.

Keeletehnoloogial on mitmeid silmapaistvaid rakendusi, nagu masintõlge ühest keelest teise, elektroonilisest tekstist kõne sünteesimine (näiteks e-kirjade või ajalehtede ettelugemine, kui silmad on muu tegevusega hõivatud, või teksti ettelugemine pimedatele); vastupidine rakendus - kõnest elektroonilise teksti moodustamine, mida kasutatakse automaatses diktofonis (näiteks autoga koosolekule sõites loete oma eelseisva kõne diktofoni ja saate selle salvestada elektroonilise tekstina, mida hiljem on võimalik töödelda mingi tekstitoimetiga).
Eesti keele jaoks on mõned ülesanded lahendatud (näiteks suudab arvuti sünteesida üsnagi talutavat eestikeelset kõnet), paljud aga lahendamata (näiteks masintõlge eesti keelest ja eesti keelde).
Keeletehnoloogiaga tegeleb Tartu ülikoolis mitteformaalne üksus - arvutilingvistika uurimisrühm, kuhu kuuluvad ühelt poolt arvutiteaduse instituudi töötajad (s.t matemaatikud-informaatikud) ning teiselt poolt filosoofiateaduskonna eesti ja üldkeeleteaduse instituudi töötajad (keeleteadlased-arvutilingvistid). Me tegeleme eeskätt eesti keele automaattöötluse probleemidega.
Teemasid pakuvad  nii arvutiteaduse instituudi kui ka eesti ja üldkeeleteaduse instituudi õppejõud ja teadurid.

Vt ka poster. 



1. Juhendajad arvutiteaduse instituudist (MTAT)

Päivi Kristiina Jokinen (Helsingi ülikool, Tartu Ülikooli külalisprofessor)
kjokinen at ut.ee
(Juhendab kas inglise või soome keeles.)

Seotud projekt (vt Eesti Teaduse Infosüsteem ETIS):
ETF8958 Multimodaalne suhtlus - videoandmete kogumise, analüüsi ja kasutamise kultuuridevahelised ja tehnoloogilised aspektid.
Teemad


Mare Koit  mare.koit at ut.ee
http://math.ut.ee/~koit/


DIALOOGSÜSTEEMID, EESTI DIALOOGIKORPUS JA SELLE TÖÖTLEMISE TARKVARA

Seotud projektid (vt ETIS):
EKT5 Eestikeelse dialoogi pragmaatika analüsaator,
ETF9124 Suhtlusagendi modelleerimine ja Eesti dialoogikorpus.

* Tagasiside automaatne tuvastamine eestikeelsetes dialoogides. Vt Daniel Jurafsky & James H. Martin. An introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.) Vt ka Eesti dialoogikorpus.
*Infoandmise strateegiad eestikeelsetes telefonidialoogides ja nende automaatne märgendamine.
Materjal: eestikeelsed infotelefonikõned, kus on märgendatud dialoogiaktid (soov, info andmine jms). Vt Daniel Jurafsky & James H. Martin. An introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2008, ptk 16. (MT raamatukogus.) Vt ka Eesti dialoogikorpus.
* Lõplikud automaadid dialoogitöötluses. Vt  http://cslu.cse.ogi.edu/toolkit/pubs/pdf/mctear_ICSLP_98.pdf

EESTIKEELSE TEKSTI GENEREERIMINE
* Elliptiliste lausete genereerimine.
Koblenz-Landau ülikooli professor Karin Harbusch on koostanud programmi, mis suudab saksa- ja hollandikeelsetest lausetest genereerida elliptilisi (väljajättelisi) lauseid. Lõputöö eesmärk on täiendada ja parandada reegleid, et programmi saaks rakendada ka eesti keelele. Vt Eesti keele käsiraamat - ellips. Karin Harbuschi publikatsioonid 2009 jj.

TEHISINTELLEKT
Teemad kokkuleppel. Vt näiteks siit.


Kaili Müürisep kaili.muurisep at ut.ee
http://math.ut.ee/~kaili/


Heiki-Jaan Kaalep heiki-jaan.kaaleput.ee
http://www.cl.ut.ee/inimesed/hkaalep/

 

Magistritööde teemad, vt lähemalt kaalep.txt
1. Paralleel-subtiitrite adekvaatsuse automaatne kontroll ja parandamine
2. Teksti ortograafilise esitusviisi automaatne tuvastamine
3. Sõnade lühenemine vestluses


Kadri Muischnek kadri.muischnek at ut.ee
http://www.cl.ut.ee/inimesed/kmuis/


Neeme Kahusk neeme.kahusk at ut.ee
http://www.cl.ut.ee/inimesed/nkahusk/

* Tarkvara lokaliseerimine: Moblin
Moblini arhitektuur (http://www.moblin.org)on loodud pidades silmas eelkõige miniarvuteid (netbook), aga ka väiksemaid arvuteid (Mobile Internet Device) või koguni autode meelelahutuskeskusi (In Vehicle Infotainment systems). Moblini tuum on ehitatud Linuxi kernelile, tuumale on ehitatud kasutajaliides. Ülesandeks on Moblini rakenduste tõlkimine eesti keelde ja kohandamine eesti lokaadiga. Kasutatakse veebipõhist rakendust Transifex (http://transifex.org/).

* Piiratud eesti keelega seotud teemad
Piiratud keel (controlled natural language) on saadud loomuliku keele sõnavara ja grammatika piiramise teel, eesmärgiga vähendada keerukust ja mitmesust, kas keele õppimise lihtsustamise eesmärgil või vaheastmena teisendamiseks formaalsesse keelde. Vt ka Kaarel Kaljuranna doktoritöö (http://hdl.handle.net/10062/4876)

* Viidete grammatika eesti keele jaoks
Viidete grammatika (Link grammar, http://www.link.cs.cmu.edu/link/) on originaalne süntaksiteooria loodud algselt inglise keele jaoks. Süsteem annab igale sisestatud lausele süntaktilise struktuuri, mis koosneb erinevatest viidetest, mis seovad omavahel sõnade paare. Seda grammatikat on katsetatud ka saksa, hiina ja vene keele puhul. Süsteemi kasutatakse ka AbiWordi grammatikakontrollijas.

* Jalgpalli-alane FrameNet eesti keele jaoks.
Kicktionary (http://www.kicktionary.de/) on freimisemantikal põhinev jalgpalli-alane leksikaalne ressurss, mis on organiseeritud lausete ja freimide alusel hierarhilisse struktuuri. Vt ka FrameNet (http://framenet.icsi.berkeley.edu).


Sven Aller sven.aller at ut.ee

* Ülevaade (vabavaralistest) API-dest, mis on seotud tõlkimisega eesti keelde või eesti keelest (koos näidisrakendustega, mis neid kasutavad).


Margus Treumuth margus.treumuth at ut.ee

* Meetodite võrdlus automaatses õigekirjavigade paranduses (Jaro-Winkler vs Noisy-Channel).
Töö eesmärk on võrrelda kahte meetodit õigekirjavigade paranduses: Jaro-Winkler vs Noisy-Channel. Testide tegemisel on võimalik kasutada kirjavigadega dialoogikorpust. Jaro-Winkleri osas on olemas toimiv realisatsioon, mida on rakendatud dialoogsüsteemis. Tudeng saab seda realisatsiooni kasutada. Vajadusel saab tudeng kasutada dialoogide kogumise vahendit. Lisaks saab tudeng vajadusel rakendada mõlemaid meetodeid dialoogsüsteemis.


Indrek Jentson indrek.jentson at ut.ee

* Eesti tekstikorpuste andmeformaadi unifitseerimine.
Olemasolevate failikujul hoitavate eestikeelsete korpuste struktuuri analüüs, ühtse ja kõigi korpuste aspekte arvestava XML-struktuuri (standardi) väljatöötamine ning korpuste failide teisendamine uuele formaadile.

Vt http://www.cl.ut.ee/korpused/

* Teadmusbaasi Wordnet andmete täiendamine automaatselt genereeritud küsimustike abil.
Probleemiks on olemasolevate andmete vahel puuduvad 'horisontaalsed' seosed, mille leidmiseks tuleks sõnastada küsimusi ja püüda leida vastuseid kas infootsingu (Information Retrieval) abil või kasutades veebirakendust ja kasutajate/vastajate abi.

Vt http://www.cl.ut.ee/ressursid/teksaurus/


 


2. Juhendajad eesti ja üldkeeleteaduse instituudist (FLEE)

Heili Orav  heili.orav at ut.ee
http://www.cl.ut.ee/inimesed/horav/

Kokkuleppel üliõpilasega arvutisõnastikega seonduv, nt Eesti wordneti täiendamine.

Vt http://www.cl.ut.ee/ressursid/teksaurus/


Tiit Hennoste tiit.hennoste at ut.ee
http://www.cl.ut.ee/inimesed/thenno/

* Netikeele korpuse kogumise programmid.
* Eesti keele morfoloogilise analüsaatori kohandamine suulise kõne korpusele.
Vt suulise ja arvutisuhtluse labor.


Sulev Iva sulev.iva at ut.ee ja Meelis Mihkla meelis.mihkla at eki.ee (Eesti Keele Instituut)

Lisatud 9.10.2012
* Võru keele kõnesüntees. Vt kirjeldus.
* Eesti-võru masintõlge.


Andriela Rääbis andriela.raabis at ut.ee
http://www.cl.ut.ee/inimesed/araabis/

Suulise eesti keele korpusega seonduv.


Olga Gerassimenko olga.gerassimenko at ut.ee

Suulise eesti keele korpusega seonduv.



Riina Kasterpalu riina.kasterpalu at ut.ee

Suulise eesti keele korpusega seonduv.


Krista Mihkels krista.mihkels at ut.ee

Suulise eesti keele korpusega seonduv.


Kadri Vare  kadri.vare at ut.ee

* Lingvistilise konteksti reeglite lisamoodul sõnatähenduste ühestamise programmile Semyhe (programmeerimiskeeles Perl).

 

Ülesande kirjeldus sunopsis.rtf

 


Kadri Vider kadri.vider at ut.ee
http://www.cl.ut.ee/inimesed/kvider/

* Pärisnimede semantiline ühestamine
* Tundmatute liitsõnade semantiline ühestamine

* Modulaarse sõnatähenduste ühestamise süsteemi projekteerimine.

Ülesande kirjeldus sonatahendusteYhest.rtf


Haldur Õim haldur.oim at ut.ee
http://www.cl.ut.ee/inimesed/hoim/

*Lausesemantika probleemid
Ülesannete kirjeldused


* Etteantud sõnaloendi ja kriteeriumide järgi andmete kogumine sõnade tähenduste ja kasutuste kohta üks- ja mitmekeelsetest elektroonilistest sõnastikest, andmebaasidest ja korpustest (nt valida-koguda etteantud sõnade teatud tähenduste kirjeldused Eesti keele seletussõnaraamatus, Teksauruses, tõlkevasted Eesti-vene sõnaraamatus, Inglise-eesti sõnastikus jne.
Vt keeleveeb.

*Sõnade (taas kindlates tähendustes) esinemised erinevates eesti keele korpustes ja paralleelkorpustes - laused, pikemad tekstilõigud. Kogutud andmete esialgne süstematiseerimine etteantud tunnuste järgi.

Iga bakalaureusetöö tegija saaks oma kindla loendi sõnu ja omad kriteeriumid-tööülesanded.


Raul Sirel rsirel at ut.ee
Hoiakuanalüüs. Lisatud 7.11.12

Vt http://en.wikipedia.org/wiki/Sentiment_analysis
Vt ka Siim-Toomas Marran. Sentimentaalne analüüs eestikeelse peavoolumeedia veebiartiklite kommentaaride baasil. Bakalaureusetöö. TÜ, arvutiteaduse inst, 2012. http://comserv.cs.ut.ee/forms/ati_report/


3. Juhendajad väljastpoolt

Kaarel Kaljurand kaljurand at gmail.com (Zürichi ülikool)

Valdkonnad:
* Eestikeelse kõne automaattuvastuse rakendused nutitelefonidele.
* Grammatiline raamistik ja eesti keel.
* Controlled English for knowledge representation,
vt teemasid NB! Mitmed teemad on seotud eestikeelse kõne automaattuvastusega ja selle rakendamisega mobiilsetes operatsioonisüsteemides (eelkõige Android).


Anto Veldre anto.veldre at cert.ee (Riigi Infosüsteemide Arenduskeskus, infoturbeintsidentide käsitlemise osakond)

*Automated analysis of malware related internet domain names.

Ülesande sisu: domeeninimede analüüs sellisel viisil, mis võimaldaks tuvastada nn halbu (viiruste levitamiseks kasutatavaid) saite. Ülesanne jääb kuhugi logianalüüsi ja lauseparsimise vahepeale, peaks ühendama kummagi võtted ja elemendid.

Ülesande kirjeldus
Vt ka imc104-yadav.pdf


<= Keeletehnoloogia töörühm