Bakalaureuse- ja magistritööde teemasid 2006/2007
Viimati muudetud 20.11.2006
Teema valikuks palun saatke e-kiri juhendajale.

Keeletehnoloogial on mitmeid atraktiivseid rakendusi, nagu masintõlge ühest keelest teise, elektroonilisest tekstist kõne sünteesimine (näiteks e-kirjade või ajalehtede ettelugemine, kui silmad on muu tegevusega hõivatud, või teksti ettelugemine pimedatele); vastupidine rakendus - kõnest elektroonilise teksti moodustamine, mida kasutatakse automaatses diktofonis (näiteks autoga koosolekule sõites loete oma eelseisva kõne diktofoni ja saate selle salvestada elektroonilise tekstina, mida hiljem on võimalik töödelda mingi tekstitoimetiga).
Eesti keele jaoks on mõned ülesanded lahendatud (näiteks suudab arvuti sünteesida üsnagi talutavat eestikeelset kõnet), paljud aga lahendamata (näiteks masintõlge eesti keelest ja eesti keelde).
Keeletehnoloogiaga tegeleb Tartu ülikoolis mitteformaalne üksus - arvutilingvistika uurimisrühm, kuhu kuuluvad ühelt poolt arvutiteaduse instituudi töötajad (s.t matemaatikud-informaatikud) ning teiselt poolt filosoofiateaduskonna eesti ja soome-ugri keeleteaduse osakonna töötajad (keeleteadlased-arvutilingvistid). Me tegeleme eeskätt eesti keele automaatttöötluse probleemidega.
Teemasid pakuvad  nii arvutiteaduse instituudi kui ka eesti ja soome-ugri keeleteaduse osakonna õppejõud ja teadurid.

Vt ka poster.



1. Juhendajad arvutiteaduse instituudist

Päivi Kristiina Jokinen
kristiina.jokinen@ut.ee
(Juhendab kas inglise või soome keeles.)

11.10.2006
Framework: Research on Agent-based Dialogue Management

Goal: Successful work and presentation of MSc/MA/BSc/BA thesis

Contents: each student studies related issues concerning dialogue systems and different aspects of spoken dialogue management. The work requires programming and producing a model or a system (component) that implements a solution to a given problem. Some work may also require corpus analysis/annotation.

Time: February 2007 (start with background reading), March (working), April (writing), May (finished papers and presentations, the best ones maybe at NODALIDA-2007)

1. Architectures for Dialogue System
- compare different management techniques

2. Topic and NewInfo in Spoken Dialogues
- analyse and annotate topics and new information in the corpus, and build a model for their recognition and development
- integrate the model into a dialogue system based on topics

3. Error handling and speech applications
- build an application e.g. with VoiceXML or CSLU Toolkit, and experiment with different error handling strategies
- study errors in the corpus and how to correct them

4. Pattern matching in dialogue management
- Eliza system and limitations and challenges for dialogue systems

5. Evaluation techniques for dialogue systems
- usability studies

6. Feedback in multimodal dialogues
- annotation of a corpus and modelling the relation between verbal and non-verbal feedback

7. Plan-based dialogue management
- experiments with communicative agents and planning

8. Plan revision
- experiments with agents in problem situations

9. Reference resolution
- how to refer to topics in conversations

10. Emotions and conversations
- study emotions and dialogues

11. Interactive applications
- design an interactive system e.g. for a traffic control system

12. Representations for dialogue management
- study suitable data representations for machine learning experiments concerning spoken natural language tasks

13. Use of words and pictures in conversations
- benefits of using picture symbols vs. language

14. Use of word-net and dialogue management
- development of shared concept

15. Presentation of guidance information
- suitable chunking for giving information to the user

16.  Generation of adaptive help
- taking the user into account when providing information


Kaili Müürisep kaili.muurisep@ut.ee
http://math.ut.ee/~kaili/
Esitlus teemade tutvustamiseks

ARVUTISÜNTAKS
 *  Morfoloogiline ühestamine mõne statistilise meetodiga
 *  Fraasipiiride tuvastamine  statistilise meetodiga
 *  Määruslike täiendite ja määruste eristamine mõne statistilise meetodiga
 *  Eesti keele süntaksi fragmente HPSG-s või LFG-s

AUTOMAATNE SISUKOKKUVÕTETE TEGEMINE
  * Sisukokkuvõtja töö hindamine
 *  Statistilistel õppimismeetoditel põhinev sisukokkuvõtja

AUTOMAATNE ANAFOORIDE LAHENDAMINE
 *  Korpuse loomise tarkvara
 *  Reeglipõhine meetod
 *  Statistiline meetod

SUULISE KEELE TEEMAD
 * Morfoloogiaanalüsaatori kohandamine
 * Morfoloogilise ühestaja kohandamine
 * Uue meedia keel

GRAMMATIKAKORREKTOR

MUU
 *Vene keele kitsenduste grammatika
 


Tiit Roosmaa tiit.roosmaa@ut.ee


Heli Uibo  heli.uibo@ut.ee
http://math.ut.ee/~heli_u/


Mare Koit  mare.koit@ut.ee
http://math.ut.ee/~koit/

EESTIKEELNE DIALOOG ARVUTIGA
* Küsimuste automaatne klassifitseerimine võimalike vastuste alusel. Vt   http://www.ijcai.org/papers/post-0141.pdf
* Tekstist küsimustele vastuste "nõrutamine". Vt   http://www.ijcai.org/papers/1660.pdf
* Eestikeelsete ajaväljendite korpuse ja formaalse grammatika koostamine
* Keele grammatika tuletamine korpusest geneetilise algoritmiga. Vt   http://nlp.stanford.edu/courses/cs224n/2003/fp/mykel/induction.pdf
* Lõplikud automaadid dialoogitöötluses. Vt  http://cslu.cse.ogi.edu/toolkit/pubs/pdf/mctear_ICSLP_98.pdf

EESTI DIALOOGIKORPUS JA SELLE TÖÖTLEMISE TARKVARA
* Dialoogiaktide automaatne tuvastamine Markovi peitmudeli (Hidden Markov Model, HMM) alusel 1;2c
* Märgendusprogramm Annotation Graph Tool1;2ckit ja selle rakendamine eestikeelsete dialoogide märgendamisel http://agtk.sourceforge.net/


Mark Fišel (doktorant) fishel@ut.ee
üldised alad, kust tudeng saab täpsema teema ise valida:
- masinõppe meetodid keeletöötluses
- dialoogiaktide tuvastamine
- statistiline masintõlge

konkreetsed teemad:
- poolautomaatne dialoogiaktide märgendamine
- ülevaade keelemudelitest loomuliku keele töötluses
- ülevaade tõlkimismudelitest statistilises masintõlkes
- statistilise masintõlke ühe (või kahe) eel-/järeltöötlustehnika realiseerimine

Lisainfo


Margus Treumuth (doktorant) treumuth@ut.ee
*Ajaväljendite (kuupäevad, kellaajad) tuvastamine tekstis
Kuupäevade sõnastusvõimalusi on palju ning seetõttu on tekstis kuupäeva tuvastamine päris raske ülesanne. Töö tulemuseks võiks olla autonoomne komponent, mida saaks rakendada dialoogsüsteemides või teistes
keeletehnoloogia rakendustes.

Lingid:
http://www.cs.helsinki.fi/u/jamakkon/papers/nodalida03.pdf
http://www.ecdl2003.org/presentations/papers/session8b/makkonen/makkonen.pdf


Maret Valdisoo (doktorant) maret@ut.ee
*Inimese ja arvuti vaheliste suuliste dialoogide simuleerimise tarkvara (võlur Ozi tehnika)



Tanel Lepsoo (prantsuse filoloogia lektor)
(kontakt: Mare Koit, mare.koit@ut.ee)
Prantsuse-eesti paralleelkorpuse loomine tõlgete võrdlemiseks


2. Juhendajad eesti ja soome-ugri keeleteaduse osakonnast

Heili Orav  heili.orav@ut.ee
http://test.cl.ut.ee/inimesed/horav/

EESTI KEELE TESAURUSE TÄIENDAMINE (sobib arvutilingvistika üliõpilastele)
*Ehitusmaterjalide valdkonna leksikaal-semantiline analüüs
*Rahandusvaldkond eesti üldkeele tesauruses
       vm tudengi valitud valdkond.
Vt http://www.cl.ut.ee/ressursid/teksaurus/


Andriela Rääbis andriela.raabis@ut.ee
http://test.cl.ut.ee/inimesed/araabis/

KÜSIMUSED TELEFONI TEEL PEETAVATES ARGIVESTLUSTES (sobib eesti keele või  arvutilingvistika üliõpilastele)


Olga Gerassimenko olga.gerassimenko@ut.ee

EESTI SUULISE KEELE LITEREERIMISVIGADE AVASTAMINE JA PARANDAMINE

SOOVIDE VORMISTUS argi(- ja institutsionaalses?) vestluses
- et teada saada, mille poolest argivestluste omad erinevad, aga et need on märgendamata, siis võtaks nende otsimine argivestlustest meil palju aega. Kui soove leidub argivestlustes suurel hulgal, võib nendega piirdudagi, väiksema hulga puhul võib institutsionaalsetega võrrelda.

SUULISE KEELE TRANSKRIPTSIOON tekstituvastuse/otsingu seisukohalt - üliõpilane võiks välja otsida ebajärjepidevusi transkriptsioonis, mis ei sega selle lugemist, aga raskendavad otsingut, nt paarismärkide järjestus, tühikud ja tühikute puudumine märkide vahel - nende kombinatsioone, mida ühestada, on palju, võib-olla tuleb veel midagi välja. Kõige toredam oleks, kui üliõpilane mõtleks läbi ka piirangud Unixi asendusskripti või osaskriptide jaoks.



Riina Kasterpalu riina.kasterpalu@ut.ee
KAS-KÜSIMUSED JA VASTUSED EESTI SUULISES DIALOOGIS (sobib eesti keele või  arvutilingvistika üliõpilastele)


Krista Strandson krista.strandson@ut.ee
PARANDUSSEKVENTSID EESTI SUULISTES DIALOOGIDES (sobib eesti keele või  arvutilingvistika üliõpilastele)

KÜSIMUS-VASTUS-TAGASISIDE EESTI SUULISTES DIALOOGIDES (sobib eesti keele või  arvutilingvistika üliõpilastele)


Kadri Muischnek kadri.muischnek@ut.ee
http://test.cl.ut.ee/inimesed/kmuis/

PARALLEELKORPUSE KASUTAJALIIDESE LOOMINE.
MORFOLOOGILISELT ÜHESTATUD KORPUSE VIIMINE XML-KUJULE. (JA VEEBILIIDESE LOOMINE)
EESTI KEELE KÕNETUVASTAJA ARENDAMINE SÜNTAKSI ALUSEL
*Lausesiseste kirjavahemärkide lisamine kõnetuvastaja väljundisse
*Suure algustähe lisamine kõnetuvastaja väljundisse
*Liitsõnade õigekiri kõnetuvastaja väljundis

Esitlus teemade tutvustamiseks


Neeme Kahusk neeme.kahusk@ut.ee
http://www.cl.ut.ee/inimesed/nkahusk/

*Eesti WordNeti sidumine MySQL andmebaasiga, kasutajaliides(t)e loomine
*Teadusinfo kogumise keskkonna loomine


Kadri Vider kadri.vider@ut.ee
http://www.cl.ut.ee/inimesed/kvider/

* Pärisnimede semantiline ühestamine
* Tundmatute liitsõnade semantiline ühestamine

Esitlus teemade tutvustamiseks



Heiki-Jaan Kaalep heiki-jaan.kaalep@ut.ee
http://www.cl.ut.ee/inimesed/hkaalep/

* Programm, mis otsustab, kas tekst (kuitahes lühike, kas või 1 sõna) on eestikeelne või mitte.

Kasutada tuleks algoritmi, mis ei kasuta sõnastikku. Näiteks "ettevaatamise algoritmi" (forward algorithm) Markovi peitmudeli korral  http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html

* Elektroonilisel kujul oleva sõnastiku teisendamine TBX (Term Base eXchange) kujule.

Sisend on rtf-i, Multitermi, Exceli vm kujul. Väljund on XML kuju, mis vastab TBX DTD-le. Valida on paarikümne sõnastiku vahel, suurusega mõnisada kuni mõnikümmend tuhat kirjet.



<= Keeletehnoloogia töörühm