Keeletehnoloogial on mitmeid atraktiivseid rakendusi,
nagu masintõlge ühest keelest teise, elektroonilisest tekstist
kõne sünteesimine (näiteks e-kirjade või ajalehtede
ettelugemine, kui silmad on muu tegevusega hõivatud, või
teksti ettelugemine pimedatele); vastupidine rakendus - kõnest elektroonilise
teksti moodustamine, mida kasutatakse automaatses diktofonis (näiteks
autoga koosolekule sõites loete oma eelseisva kõne diktofoni
ja saate selle salvestada elektroonilise tekstina, mida hiljem on võimalik
töödelda mingi tekstitoimetiga).
Eesti keele jaoks on mõned ülesanded lahendatud
(näiteks suudab arvuti sünteesida üsnagi talutavat eestikeelset
kõnet), paljud aga lahendamata (näiteks masintõlge eesti
keelest ja eesti keelde).
Keeletehnoloogiaga tegeleb Tartu ülikoolis mitteformaalne
üksus - arvutilingvistika uurimisrühm,
kuhu kuuluvad ühelt poolt arvutiteaduse instituudi töötajad
(s.t matemaatikud-informaatikud) ning teiselt poolt filosoofiateaduskonna
eesti ja soome-ugri keeleteaduse osakonna töötajad (keeleteadlased-arvutilingvistid).
Me tegeleme eeskätt eesti keele automaatttöötluse probleemidega.
Teemasid pakuvad nii arvutiteaduse instituudi kui
ka eesti ja soome-ugri keeleteaduse osakonna õppejõud ja
teadurid.
Vt ka poster.
Päivi Kristiina Jokinen
kristiina.jokinen@ut.ee
(Juhendab kas inglise või soome keeles.)
11.10.2006
Framework: Research on Agent-based Dialogue
Management
Goal: Successful work and presentation of MSc/MA/BSc/BA thesis
Contents: each student studies related issues concerning dialogue systems and different aspects of spoken dialogue management. The work requires programming and producing a model or a system (component) that implements a solution to a given problem. Some work may also require corpus analysis/annotation.
Time: February 2007 (start with background reading), March (working), April (writing), May (finished papers and presentations, the best ones maybe at NODALIDA-2007)
1. Architectures for Dialogue System
- compare different management techniques
2. Topic and NewInfo in Spoken Dialogues
- analyse and annotate topics and new information
in the corpus, and build a model for their recognition and development
- integrate the model into a dialogue system
based on topics
3. Error handling and speech applications
- build an application e.g. with VoiceXML or
CSLU Toolkit, and experiment with different error handling strategies
- study errors in the corpus and how to correct
them
4. Pattern matching in dialogue management
- Eliza system and limitations and challenges
for dialogue systems
5. Evaluation techniques for dialogue systems
- usability studies
6. Feedback in multimodal dialogues
- annotation of a corpus and modelling the relation
between verbal and non-verbal feedback
7. Plan-based dialogue management
- experiments with communicative agents and planning
8. Plan revision
- experiments with agents in problem situations
9. Reference resolution
- how to refer to topics in conversations
10. Emotions and conversations
- study emotions and dialogues
11. Interactive applications
- design an interactive system e.g. for a traffic
control system
12. Representations for dialogue management
- study suitable data representations for machine
learning experiments concerning spoken natural language tasks
13. Use of words and pictures in conversations
- benefits of using picture symbols vs. language
14. Use of word-net and dialogue management
- development of shared concept
15. Presentation of guidance information
- suitable chunking for giving information to
the user
16. Generation of adaptive help
- taking the user into account when providing
information
ARVUTISÜNTAKS
* Morfoloogiline ühestamine mõne statistilise
meetodiga
* Fraasipiiride tuvastamine statistilise meetodiga
* Määruslike täiendite ja määruste
eristamine mõne statistilise meetodiga
* Eesti keele süntaksi fragmente HPSG-s või
LFG-s
AUTOMAATNE SISUKOKKUVÕTETE TEGEMINE
* Sisukokkuvõtja töö hindamine
* Statistilistel õppimismeetoditel põhinev
sisukokkuvõtja
AUTOMAATNE ANAFOORIDE LAHENDAMINE
* Korpuse loomise tarkvara
* Reeglipõhine meetod
* Statistiline meetod
SUULISE KEELE TEEMAD
* Morfoloogiaanalüsaatori kohandamine
* Morfoloogilise ühestaja kohandamine
* Uue meedia keel
GRAMMATIKAKORREKTOR
MUU
*Vene keele kitsenduste grammatika
EESTIKEELNE DIALOOG ARVUTIGA
* Küsimuste automaatne klassifitseerimine
võimalike vastuste alusel. Vt http://www.ijcai.org/papers/post-0141.pdf
* Tekstist küsimustele vastuste "nõrutamine".
Vt http://www.ijcai.org/papers/1660.pdf
* Eestikeelsete ajaväljendite korpuse ja
formaalse grammatika koostamine
* Keele grammatika tuletamine korpusest geneetilise
algoritmiga. Vt http://nlp.stanford.edu/courses/cs224n/2003/fp/mykel/induction.pdf
* Lõplikud automaadid dialoogitöötluses.
Vt http://cslu.cse.ogi.edu/toolkit/pubs/pdf/mctear_ICSLP_98.pdf
EESTI DIALOOGIKORPUS JA SELLE TÖÖTLEMISE
TARKVARA
konkreetsed teemad:
Lingid:
Heili Orav heili.orav@ut.ee
EESTI KEELE TESAURUSE TÄIENDAMINE (sobib arvutilingvistika üliõpilastele)
KÜSIMUSED TELEFONI TEEL PEETAVATES ARGIVESTLUSTES (sobib eesti
keele või arvutilingvistika üliõpilastele)
EESTI SUULISE KEELE LITEREERIMISVIGADE AVASTAMINE JA PARANDAMINE
SOOVIDE VORMISTUS argi(- ja institutsionaalses?)
vestluses
SUULISE KEELE TRANSKRIPTSIOON tekstituvastuse/otsingu
seisukohalt - üliõpilane võiks välja otsida ebajärjepidevusi
transkriptsioonis, mis ei sega selle lugemist, aga raskendavad otsingut,
nt paarismärkide järjestus, tühikud ja tühikute puudumine
märkide vahel - nende kombinatsioone, mida ühestada, on palju,
võib-olla tuleb veel midagi välja. Kõige toredam oleks,
kui üliõpilane mõtleks läbi ka piirangud Unixi
asendusskripti või osaskriptide jaoks.
KÜSIMUS-VASTUS-TAGASISIDE EESTI SUULISTES DIALOOGIDES (sobib eesti
keele või arvutilingvistika üliõpilastele)
PARALLEELKORPUSE KASUTAJALIIDESE LOOMINE.
Esitlus teemade tutvustamiseks
*Eesti WordNeti sidumine MySQL andmebaasiga, kasutajaliides(t)e loomine
* Pärisnimede semantiline ühestamine
Esitlus teemade tutvustamiseks
* Programm, mis otsustab, kas tekst (kuitahes lühike, kas või
1 sõna) on eestikeelne või mitte.
Kasutada tuleks algoritmi, mis ei kasuta sõnastikku.
Näiteks "ettevaatamise algoritmi" (forward algorithm) Markovi peitmudeli
korral http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html
* Elektroonilisel kujul oleva sõnastiku teisendamine TBX (Term
Base eXchange) kujule.
Sisend on rtf-i, Multitermi, Exceli vm kujul. Väljund
on XML kuju, mis vastab TBX DTD-le. Valida on paarikümne sõnastiku
vahel, suurusega mõnisada kuni mõnikümmend tuhat kirjet.
* Dialoogiaktide automaatne tuvastamine Markovi
peitmudeli (Hidden Markov Model, HMM) alusel
1;2c
* Märgendusprogramm Annotation Graph
Tool1;2ckit
ja selle rakendamine eestikeelsete dialoogide märgendamisel
http://agtk.sourceforge.net/
Mark
Fišel (doktorant)
fishel@ut.ee
üldised alad, kust tudeng saab täpsema
teema ise valida:
- masinõppe meetodid
keeletöötluses
- statistiline masintõlge
- poolautomaatne dialoogiaktide
märgendamine
- ülevaade keelemudelitest loomuliku keele
töötluses
- ülevaade tõlkimismudelitest statistilises
masintõlkes
- statistilise masintõlke ühe (või
kahe) eel-/järeltöötlustehnika realiseerimine
Margus Treumuth (doktorant)
treumuth@ut.ee
*Ajaväljendite (kuupäevad, kellaajad)
tuvastamine tekstis
Kuupäevade sõnastusvõimalusi
on palju ning seetõttu on tekstis kuupäeva tuvastamine päris
raske ülesanne. Töö tulemuseks võiks olla autonoomne
komponent, mida saaks rakendada dialoogsüsteemides või teistes
keeletehnoloogia rakendustes.
http://www.cs.helsinki.fi/u/jamakkon/papers/nodalida03.pdf
http://www.ecdl2003.org/presentations/papers/session8b/makkonen/makkonen.pdf
Maret Valdisoo (doktorant)
maret@ut.ee
*Inimese ja arvuti vaheliste suuliste dialoogide simuleerimise tarkvara
(võlur Ozi tehnika)
Tanel Lepsoo (prantsuse
filoloogia lektor)
(kontakt: Mare Koit, mare.koit@ut.ee)
Prantsuse-eesti paralleelkorpuse loomine tõlgete
võrdlemiseks
2. Juhendajad eesti ja soome-ugri
keeleteaduse osakonnast
http://test.cl.ut.ee/inimesed/horav/
*Ehitusmaterjalide valdkonna leksikaal-semantiline analüüs
*Rahandusvaldkond eesti üldkeele tesauruses
vm tudengi valitud valdkond.
Vt http://www.cl.ut.ee/ressursid/teksaurus/
Andriela Rääbis
andriela.raabis@ut.ee
http://test.cl.ut.ee/inimesed/araabis/
Olga Gerassimenko
olga.gerassimenko@ut.ee
- et teada saada, mille poolest argivestluste
omad erinevad, aga et need on märgendamata, siis võtaks nende
otsimine argivestlustest meil palju aega. Kui soove leidub argivestlustes
suurel hulgal, võib nendega piirdudagi, väiksema hulga puhul
võib institutsionaalsetega võrrelda.
Riina Kasterpalu riina.kasterpalu@ut.ee
KAS-KÜSIMUSED JA VASTUSED EESTI SUULISES
DIALOOGIS (sobib eesti keele või arvutilingvistika
üliõpilastele)
Krista Strandson krista.strandson@ut.ee
PARANDUSSEKVENTSID EESTI SUULISTES DIALOOGIDES (sobib eesti keele või
arvutilingvistika üliõpilastele)
Kadri Muischnek kadri.muischnek@ut.ee
http://test.cl.ut.ee/inimesed/kmuis/
MORFOLOOGILISELT ÜHESTATUD KORPUSE VIIMINE XML-KUJULE. (JA VEEBILIIDESE
LOOMINE)
EESTI KEELE KÕNETUVASTAJA ARENDAMINE SÜNTAKSI ALUSEL
*Lausesiseste kirjavahemärkide lisamine kõnetuvastaja väljundisse
*Suure algustähe lisamine kõnetuvastaja väljundisse
*Liitsõnade õigekiri kõnetuvastaja väljundis
Neeme Kahusk neeme.kahusk@ut.ee
http://www.cl.ut.ee/inimesed/nkahusk/
*Teadusinfo kogumise keskkonna loomine
Kadri Vider kadri.vider@ut.ee
http://www.cl.ut.ee/inimesed/kvider/
* Tundmatute liitsõnade semantiline ühestamine
Heiki-Jaan Kaalep heiki-jaan.kaalep@ut.ee
http://www.cl.ut.ee/inimesed/hkaalep/
<= Keeletehnoloogia töörühm