Magistritöö teemad, juhendaja H. Kaalep. 1. Paralleel-subtiitrite adekvaatsuse automaatne kontroll ja parandamine Paralleel-subtiitrid on sama filmi subtiitrid kahes või enamas keeles, joondatud lausete kaupa. Sama tähendusega laused on pandud kohakuti automaatselt, lähtudes inimese poolt loodud failidest. Saadud paralleeltekste kasutatakse eelkõige masintõlke programmide treenimismaterjaliks, aga ka muudeks rakendusteks, nt. sõnastike loomiseks. Paraku on võimalik, et joondamisel on läinud midagi viltu ja kohakuti polegi enam sama tähendusega laused. Teiselt poolt on võimalik, et sama filmi on tõlgitud korduvalt (ja seejuures erinevalt), lähtudes erinevatest allikfailidest ja/või jättes osa hoopis tõlkimata. Kolmandaks on võimalik, et kohakuti olevad lausepaarid on küll erinevad, kuid tähendavad siiski sama asja (nt. on tegu kodeeringute erinevuse või alternatiivsete tõlgetega). Eesmärgiks on luua programm, mis annaks hinnangu tõlkepaaride adekvaatsusele ja võimalusel pakuks paremat tõlget. Abiks on asjaolu, et kas originaal või tõlge (või mõlemad) on mitmes versioonis ja seega on põhimõtteliselt võimalik viia kokku ühtmoodi tõlgitud lausepaarid. Sel moel on võimalik leida arvatavasti õiged ja arvatavasti probleemsed kohad. Üks idee, kuidas asja lahendada, on kirjeldatud siin: http://ufal.mff.cuni.cz/pbml/94/art-fishel.pdf Loodav programm võiks olla kasutatav http://opus.lingfil.uu.se/OpenSubtitles_v2.php subtiitrite parandamiseks. 2. Teksti ortograafilise esitusviisi automaatne tuvastamine Teksti võib ortograafiliselt esitada mitmel eri viisil. Lõike võib eristada taandrea abil, aga ka tühja reaga; lauseid võib eristada alguses olev suurtäht ja lõpus olev punkt, aga võib teha ka nii, et iga lause on omaette real ja suurtähti ei kasutatagi. Ka täpitähti võib esitada mitmel eri moel. Tavaliselt järgib üks autor oma tekstis üht esitusviisi. Teksti töötlemiseks oleks hea teada, millist ortograafiat autor kasutab. Kui autor ei kasuta suurtähti, siis nimede tuvastamiseks tuleb kasutada mingit muud võtet kui suure algustähe kontroll; kui autor ei kasuta täpitähti, siis oleks hea teada, kuidas ta ä-d ja õ-d sisaldavaid sõnu kirjutab. Eesmärgiks on luua programm, mis tuvastaks ortograafilised konventsioonid, millele tekst vastab: kuidas eristatakse lõike ja lauseid; kuidas kasutatakse kirjavahemärke ja tühikuid; kas ja kuidas kasutatakse suurtähti; kas ja kuidas kasutatakse täpitähti; kas ja kuidas kasutatakse emotikone; kas ja kuidas kasutatakse tähekordusi millegi rõhutamiseks. Inimesele, kes keelt oskab, on ortograafia mõistmine triviaalne, kuid arvutil puudub keeleoskus... Formaalselt on tegemist klassifitseerimisülesandega, kusjuures parimad tunnused ja statistiline meetod tuleb alles valida. 3. On teada, et kui sõna kasutatakse vestluses, siis vestluse alguses hääldatakse teda hoolikamalt, pikemalt. Edaspidi aga hooletumalt, lühemalt. http://www.haskins.yale.edu/sr/sr091/sr091_08.pdf On ka teada, et kui võõrsõna koduneb keeles, siis tema hääldus muutub, nt. apelsiin on muutunud apelsiniks. Küsimus: kas vestluses toimuv sõna lühenemine on sarnane sellega, mis toimub võõrsõna kohanedes? Või on see hoopis omamoodi protsess? Konkreetselt: kas lüheneb eeskätt rõhutu silp? Või hoopis rõhuline? Või terve sõna ühtlaselt? Kas eri tüüpi sõnadel on siin erinevusi, nt. et esmavältelised käituvad teisiti kui teisevältelised? Kas ka rõhu asukoht muutub, nagu sõna apelsiin puhul on juhtunud?