日语论文/《在汉日机器翻译系统中对日语生成技术的研究》[日语论文]

资料分类免费日语论文 责任编辑:小李老师更新时间:2017-04-10
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

日语论文资料库:《在汉日机器翻译系统中对日语生成技术的研究》

Abstract: This paper presents a Japanese generation sub-system, which is used in a transfer-based Chinese-Japanese machine translation system. The Chinese parsing tree is introduced first. It is a dependency tree based on the case grammar. Syntactic, semantic and case information are combined into the nodes on the tree. Then, according to the characters of Japanese, we discuss some difficult issues in the process of Japanese generation, such as Japanese word selection, word inflection and accompany particles generation. The architecture of the rule-based Japanese generation system is presented and the rule system for generation is described in detail. At last, some rule examples and translation examples are given. And we discuss the future work for this translation system.
Key words: artificial intelligence; machine translation; case grammar; Chinese parsing; Japanese generation
摘要: 本文介绍了一个基于转换翻译的汉日机器翻译系统中日语生成子系统的设计和实现。文章首先描述了一种基于格关系的汉语依存分析树,分析树结点记录语法语义以及格关系信息;然后,代写日语论文针对日语的特征,分析了日语生成中的主要问题,包括译词选择、用言活用形确定、助词添加等;给出基于规则的日语生成系统的组织结构,重点介绍生成规则系统的设计和实现。最后,给出规则描述的实例以及翻译实例,提出进一步改进本系统的初步想法。
关键词: 人工智能; 机器翻译; 格语法; 汉语分析; 日语生成
一、前言
汉—外机器翻译技术的研究正成为国内外研究的热点。我们在多年的日—汉机器翻译系统研究与开发的基础上,本文试探性地对汉日机器翻译技术进行一些探讨,介绍在汉日机器翻译系统中对日语生成技术的研究与开发。目前的机器翻译方法通常有基于规则的树构造转换法和基于语料库的统计方法等[1,2,7]。
本文采用的是传统的基于树构造转换的方法。它主要有两个步骤:对源语言进行分析,得到基于格关系的含有语法语义信息的树形中间结果,生成过程将它转换成一个等价的面向目标语的深层结构表示,再把它转换成目标语的表层结构,从而得到目标语。
日语生成在日本已有一些研究,IBM日本研究院Taijiro等[10]曾经对一些技术手册进行英语到日语的翻译,日语生成采用的是基于转换方法。Sumumu等[11]则提出了实例转换和规则相结合的日语生成方法。日本大学的Hajime等[12]提出基于IPAL的日语生成技术。而Taro等[13]则利用基于纯统计的机器翻译方法,根据给定的源语言,计算出最大可能的日语输出。
本文介绍一种基于汉语依存关系树的日语生成系统。文章首先介绍所基于的汉语分析算法和分析结果树;然后简单介绍日语语法,总结日语生成过程中的一些主要问题,最后,介绍日语生成系统的设计和实现。
二、基于格语法的汉语分析树
在基于转换的机器翻译中,译文的生成依赖于源语言分析器所产生的分析结果。本文所描述的日语生成过程基于汉语分析所产生的分析结果,我们首先介绍所基于的汉语分析。我们在处理汉语过程中,针对汉语表达具有的层次性[8],从词汇—语义驱动出发,建立一个语言层次模型,对句子提供完整的描述。句法分析以动词为中心,采用动词的格框架以及其它一些语法语义信息(如时间、地点等),给出句子其它成分与动词之间的格关系[3],最终生成以主动词为根、基于格关系表示的依存关系树。图1给出了汉语句子“我给他打过电话”经过汉语分析后产生的分析结果。
在如图1的汉语分析树中,树结点采用了多值标记函数[4],树上的一个结点对应若干个标记,这使得树形图上的每个结点都能记录足够多的语法语义信息和格关系信息,而树的根结点,还包含了句子的时体态信息。我们共定义了35个可能的结点属性标记,例如:C—DCS(汉语词条的深层格信息)、C—TEN(汉语词条的时态信息)、C—AUX(助动词信息)、C—CAT(汉语词条分类信息)等等共34个(详见表1)。每个结点负载着多个可能的属性值,这些属性值给出了结点的格信息、时体态信息以及其它语法语义信息。例如:图1树结点“打”包含了C—CAT(词性)、C—SCT(词性细分类)、C—MOD(语态)、C—TIM(时态)等十个标记及其属性值。
分析树是基于格关系的,我们对汉语的复句和单句的格处理进行了归纳分类。单句中的格关系主要反映在分析树中的C—DCS标记上,其标记值有AGT(施事格)、LOC(场所格)、SOU(起源格)、OBJ(受事格)等等,我们根据汉语自身的特点,分为9大类,共35种格关系。比如图1中,“他”结点上的C—DCS=GOL表示目标格。
复句格关系描述了复句中单句的结合关系,给出了包括先行格(ANT)、后继格(SUC)、递进格(PRO)、转折格(BUT)、原因格(CAU)、结果格(RES)、推断格(INF)、条件格(CND)在内的共14种单句间的格关系。
这个分析结果树包含了汉语句子所要表达的绝大部分信息,同时这个分析结果树的表达形式非常有利于目标语(日语)的生成。为了设计出具有针对性的目标语生成系统,我们对日语的语法以及日语生成中存在的主要问题进行介绍。
三、日语生成中的主要问题
3.1 日语的特点
按语言的形态来看,日语属于粘着语,它主要具有以下一些特点[6]:
1•日语依靠助词或者助动词(粘着成分)来表示每个单词在句中的语法功能。
2•日语的动词、形容词、形容动词和助动词有词尾变化(称为活用),变化形式由时体态以及粘着成分来决定。
3•日语的主语和主题一般在句首,谓语在句尾,而修饰语(类似于汉语定语或状语等成分)则在被修饰语之前。日语句子修饰成分多数没有严格的次序,可以灵活放置。
日语是语义主导型语言,句节的语法功能和语义性质由其内部所带的格助词刻画。日语是以动词为中心的语言,其表层格与格语法[5]中的生成格有较好的对应关系。
3.2 日语生成的问题及策略
针对机器翻译目标语生成,以及日语这一特定目标语的一些特征,我们归纳出在日语生成过程中主要有下面几个需解决的问题:译词选择、粘着成分的添加、用言活用的表层生成、次序调整及日语句子表层生成。
1•译词选择
译词的选择对译文的生成质量至关重要,从语言学的角度看,译词选择是由语义、搭配关系和上下文信息决定的。
对于动词而言,动词译词的选择常常要根据词语的搭配关系来实现,如汉语的“打”,翻译成日语有好几种可能的译词,“打人”中的“打”译成“殴る”,“打电话”中的“打”译成“る”,“打球”中的“打”译成“やる”等,并且如果句子是使役态,则“る”应加“られる”,而“殴る”和“殴る”应加“れる”。
对于名词译词的选择,日语同一个名词有不同语义,同一个名词也可以用不同的形容词,形容动词以及句子修饰。这往往也要根据搭配关系来选择译词。译词选择属于词的个性范围,没有统一且结构化的手段,需要不断总结语义知识,充分利用语法语义知识,寻求决定词义的语境特征结构,进而总结归纳出这些本论文由英语论文网提供整理,提供论文代写,英语论文代写,代写论文,代写英语论文,代写留学生论文,代写英文论文,留学生论文代写相关核心关键词搜索。

免费论文题目: