Univerza na Primorskem Fakulteta za matematiko, naravoslovje in informacijske tehnologije
SI | EN

petek, 8. marec 2013 Seminar MARA

V ponedeljek, 11. marca 2013, bo ob 16.00  uri v prostorih Fakultete za matematiko, naravoslovje in informacijske tehnologije Univerze na  Primorskem, Glagoljaška 8, Koper predavanje v okviru skupnega  SEMINARJA ZA MATEMATIČNE IN RAČUNALNIŠKE ZNANOSTI Oddelka za  matematiko in Oddelka za Informacijske znanosti in tehnologije UP  FAMNIT, Oddelka za matematiko in Oddelka za Informacijske znanosti in  tehnologije UP IAM, Oddelka za matematiko in računalništvo UP PEF ter  Oddelkov za matematiko in teoretično računalništvo IMFM.

RAČUNALNIŠKI SEMINAR

Prostor: FAMNIT-1-RU1 ob 16:00

Predavatelj: dr. Jernej Vičič

Naslov:  Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike.

Povzetek:
Pričujoče delo predstavlja pregled strojnega prevajanja naravnih jezikov, osredotoča se predvsem na sisteme in metode za prevajanje sorodnih naravnih jezikov. Večina predstavljenih sistemov sodi v skupino strojnega prevajanja na osnovi pravil plitkega prenosa, ki so najprimernejši za postavitev sistemov za strojno prevajanje sorodnih jezikov.
Največja težava sistemov, ki temeljijo na pravilih, je dolgotrajna in draga ročna izdelava slovarjev ter prevajalnih pravil v primeru klasičnega pristopa h gradnji prevajalnih sistemov na osnovi pravil. Delo ponuja pregled zbirke izbranih in na novo zasnovanih metod samodejne izdelave gradiv za postavitev prevajalnih sistemov na osnovi pravil.
Metode so bile preizkušene na študiji primera: postavitev popolnoma delujočega prevajalnega sistema za sorodne jezike. Postavljeni so bili štirje sistemi: slovenščina-srbščina, slovenščina-češčina, slovenščina-angleščina in slovenščina-estonščina. Poleg same kakovosti prevodov je bila ocenjena tudi hitrost postavitve novega prevajalnega sistema.

V disertaciji je predstavljena metoda, ki razširja osnovno metodo za prevajanje s pomočjo dreves izpeljav za jezike z omejeno podporo jezikovnih tehnologij. V učni fazi je za izvorni jezik namesto drevesnice uporabljen le poravnani korpus.

V disertaciji je opisana metoda za samodejno izdelavo oblikoskladenjskih slovarjev, ki vključuje samodejno označevanje paradigem, njihovo samodejno luščenje za visoko pregibne jezike in izdelavo pripadajočih leksikonov ter samodejno izdelavo dvojezičnih prevajalnih slovarjev.

V disertaciji je predstavljena metoda za uporabo, izbiro in ocenjevanje pravil\index{pravilo} za strukturni\index{strukturni prenos} prenos. Opisane metode za samodejno gradnjo pravil strukturnega prenosa pogosto izdelajo veliko množico pravil, ki med sabo tekmujejo (mogoče jih je uporabiti za iste dele besedila). Najboljša pravila izberemo na podlagi korpusa ciljnega jezika.

Abstract:
The work presents an overview of the systems and methods for the natural language machine translation. It focuses primarily on systems and methods for the translation of the related languages. Most of the presented systems belong to the Shallow Parse and Transfer Rule-Based Machine Translation paradigm, which is better suited for the implementation of a translation system for related languages. The major problem of the rule-based translation systems is costly manual production of dictionaries and translation rules in the case of a classical approach to building such systems. The work provides an overview over the collection of selected and new methods designed for automatic production of materials for the installation of systems based on translation rules.

Methods were tested on a case study: the implementation of a fully functioning translation system for related languages. The following four systems were used as the basis: Slovenian-Serbian, Slovenian-Czech, Slovenian-English and Slovenian-Estonian. The evaluation process focused on the quality of the translations as well as the estimation of the time needed for the implementation of a new system.

The dissertation presents a method that extends the basic Statistical Machine Translation by Parsing paradigm for languages ​​with limited support of language technologies. The learning phase uses an aligned corpus instead of a full treebank.

The dissertation describes a method for the automatic creation of morphologies, which includes automatic paradigm tagging, automatic paradigm construction for the highly inflected languages and automatic production of bilingual dictionaries.

The dissertation presents a method for the selection and assessment of the rules for the structural transfer. Methods for the automatic construction of structural transfer rules often produce a large set of rules, which compete with each other (it is possible to use multiple rules on the same part of text). The best rules are chosen on the basis of the target language corpus.

Vabljeni!