【摘要】:机器翻译一直是自然语言处理领域的热点和难点,在实现不同语言的交流方面具有重要的意义。近年来,随着我国对纳西少数民族语言文字信息运用的日渐重视,实现纳西语言与汉语言的互通互译就显得尤为重要。其中,利用机器翻译来完成这一目标成为了比较重要的途径之一。但由于汉语和纳西语在语言的句法结构方面存在很大的异同,所以,简单的利用基于词或基于短语的统计机器翻译措施并不能取得很好的翻译效果。.因此,针对汉语-纳西语的句法特点,本文分别利用两种语言在句法结构上的依存关系,开展汉语-纳西统计机器翻译探讨,主要取得了以下成果:
(1)融合改进依存树到串模板的汉语纳西翻译措施。翻译模板是提高统计机器翻译系统效果的重要基础和手段。本文以汉语和纳西语为探讨对象,对基于汉语-纳西语统计机器翻译系统所需的依存树到串翻译模板进行了改进。在进行翻译模板的构建时,提出了添加归并操作的翻译模板抽取措施及相应的解码算法,并根据解码算法,将该翻译模板融入到汉语-纳西语统计机器翻译系统的解码阶段,完成翻译。实验表明,在一定规模的改进依存树到串翻译模板的支持下,基于汉语-纳西语的统计机器翻译效果有大幅度的提升。
(2)构建基于纳西语的依存语言模型并对解码效果进行约束。针对纳西语的句法特点,将纳西语句法结构信息融入模型并提出训练措施,在对解码候选翻译结果进行选择时,对正常解码的NBEST候选翻译结果重新计算得分并对其序列顺序进行调整,以提升翻译结果的准确率。最终实验结果表明提出的基于依存句法关系的语言模型关于最佳翻译结果的选择有很大的帮助。
(3)利用已有的词语对齐、句法略论等基础软件,结合改进的依存树到串翻译模板、解码算法以及依存语言模型,搭建基于依存句法的汉语-纳西语统计机器翻译原型系统。
【关键词】:统计机器翻译 汉语-纳西语 翻译模板 依存语言模型
摘要3-4 Abstract4-6 目录6-9 第一章 绪论9-15 1.1 探讨背景及意义9-10 1.2 国内外探讨近况10-12 1.3 论文的探讨内容12-13 1.4 论文的组织13-15 第二章 统计机器翻译措施介绍15-27 2.1 引言15 2.2 基于词的统计机器翻译措施15-17 2.3 基于短语的统计机器翻译措施17 2.4 基于句法的统计机器翻译措施17-21 2.4.1 基于形式化句法的统计机器翻译措施18-19 2.4.2 基于语言学句法的统计机器翻译措施19-21 2.5 翻译模型框架和常用特征函数21-22 2.5.1 对数线性模型21-22 2.5.2 特征函数22 2.6 统计翻译模型的训练和解码22-23 2.6.1 模板抽取22-23 2.6.2 解码23 2.7 机器翻译评测措施23-26 2.7.1 人工评测23-24 2.7.2 自动评测24-26 2.7.3 本文所用的自动评测工具26 2.8 本章小结26-27 第三章 基于改进依存树到串模板的汉语纳西翻译措施27-41 3.1 引言27-28 3.2 改进依存树到串的汉语纳西翻译模板抽取措施28-30 3.2.1 改进翻译模板的定义28 3.2.2 改进翻译模板的抽取思想28-29 3.2.3 改进翻译模板的属性标注29-30 3.3 抽取算法的具体实现30-33 3.3.1 归并及节点属性标注30-32 3.3.2 递归抽取翻译模板32-33 3.4 概率计算33-34 3.5 解码算法设计34-38 3.5.1 模板匹配36-37 3.5.2 替换和粘贴操作37-38 3.5.3 剪枝策略38 3.6 实验及略论38-40 3.6.1 实验数据准备38-39 3.6.2 实验及结果略论39-40 3.7 本章小结40-41 第四章 融合纳西语依存语言模型的解码优化41-47 4.1 引言41 4.2 统计语言模型41-42 4.3 纳西依存语言模型的训练42-44 4.3.1 依存关系序列的获得42-43 4.3.2 依存关系序列的属性标注43-44 4.3.3 依存语言模型的训练44 4.4 解码优化44-45 4.5 实验及略论45-46 4.6 本章小结46-47 第五章 基于依存句法的汉语纳西统计机器翻译系统的实现47-51 5.1 系统背景47 5.2 系统开发所需工具及资源47-48 5.2.1 基础开源工具47 5.2.2 翻译模板及语言模型47-48 5.3 系统实现48-49 5.4 本章小结49-51 第六章 总结及下一步工作51-53 6.1 总结51 6.2 下一步工作51-53 致谢53-55 参考文献55-61 附录A 攻读学位期间的论文61-63 附录B 攻读学位期间的软件作品权63-65 附录C 攻读期间论文项目基金及参与项目65 ,西语论文范文,西语毕业论文 |