基于混淆网络的机器翻译系统融合技术探讨[西语论文]

资料分类免费西语论文 责任编辑:姗姗老师更新时间:2017-06-06
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。
【摘要】:随着经济全球化的不断发展,跨语言交流的需求不断增长,使用机器翻译实现自然语言的自动翻译有很大的需求。近年来机器翻译技术不断进步,能够满足基本的翻译的需求,西语论文网站,但是用户对翻译质量的要求不断提高,系统融合技术作为有效的提升机器翻译质量的措施在评测和实践中被广泛使用。围绕着系统融合技术,本文的探讨主要涉及以下几个方面: (1)对系统融合性能的作用因素进行了略论。使用系统融合的远景得分作为评价指标,对参与融合的系统个数和融合候选来源对系统融合性能的作用进行略论。探讨参与融合的系统数量对系统融合远景得分的作用时,本文给出在不同个数的系统参与融合的情况下所对应的系统融合远景得分。探讨融合候选的来源对系统融合性能的作用时,给出在融合候选来自多个源语言和单个源语言的情况下,系统融合远景得分随系统个数变化的曲线,给出多源和单源远景得分变化曲线的对比。最后略论实际的融合措施对系统融合性能的作用,西语论文范文,比较了句子级别和词汇级别系统融合措施在特定数据上的融合结果,实验结果表明词汇级别融合措施优于句子级别融合措施。 (2)探讨了基于机器学习的融合候选排序问题。参与系统融合的多个系统之间存在较大的翻译质量差别,使用全部的融合候选参与系统融合所获得的融合结果并不是最优的,需要从众多的融合候选中选择翻译质量较高的融合候选。本文使用基于pair-wise的排序措施实现融合候选质量排序,这种措施将列表排序问题分解成大量的二分类问题,从而可以尝试多种现有的分类算法。在使用融合候选排序的系统融合措施中,首先需要从训练集中训练统计排序模型,接着将统计模型运用到测试集中每个句子并产生融合候选排序结果,然后使用排名较高的融合候选参与后续的系统融合。本文将融合候选排序运用到句子级别和词汇级别系统融合措施中,根据实验结果可以发现,使用融合候选排序并使用高质量的融合候选参与融合对句子级别和词汇级别融合措施有显著的性能提升。 (3)向现有的系统融合解码使用的对数线性模型中添加局部特征。系统融合解码时使用对数线性模型给搜索解码空间,现有的对数线性模型中包括语言模型得分、句子长度、ngram-count以及词置信度四个常用的特征。语言模型得分是用从通用语料训练出的语言模型对解码结果进行打分,用于衡量融合结果的流利度。句子长度用于控制解码结果在合理的限度内。Ngram-count作为局部信息,对系统融合性能提升有着显著的影响,因此本文尝试加入更多的局部特征以提升系统融合的性能。本文尝试在对数线性模型中加入新的局部特征,包括局部语言模型得分、skip-gram匹配个数和词后验概率三个特征。本文给出在现有特征的基础上分别添加三个特征后对应的融合结果得分,并据此略论每一个特征的有效性。同时我们也给出了不同特征之间的组合对系统融合性能的作用。 关于系统融合,本文首先对系统融合性能作用因素进行实证略论,然后通过挑选高质量的部分融合候选提升系统融合的性能。最后给出局部特征对系统融合性能的作用。

【关键词】:机器翻译 系统融合 混淆网络 融合候选排序
【学位授予单位】:哈尔滨工业大学
【学位级别】:
【学位授予年份】:2017
【分类号】:TP391.2
【目录】:

摘要4-6

Abstract6-10

第1章 绪论10-19

1.1 本文探讨的目的和意义10-11

1.2 国内外探讨近况11-16

1.2.1 系统融合探讨近况11-15

1.2.2 WMT 系统融合评测15-16

1.3 本文的主要探讨内容16-17

1.4 论文的组织结构17-19

第2章 系统融合性能作用因素略论19-33

2.1 引言19

2.2 远景得分定义及计算措施19-21

2.2.1 远景得分的定义19-20

2.2.2 远景得分的计算措施20-21

2.3 候选系统数量对融合性能的作用21-23

2.3.1 远景得分变化趋势的计算措施21

2.3.2 实验结果及略论21-23

2.4 数据来源对远景得分作用略论23-30

2.5 融合措施对融合性能作用略论30-31

2.6 本章小结31-33

第3章 基于排序学习的融合输入选择33-49

3.1 引言33

3.2 排序学习算法33-39

3.2.1 基于 pair-wise 分类的列表排序34-35

3.2.2 分类算法35-39

3.3 系统融合候选排序39-44

3.3.1 特征抽取39-41

3.3.2 实验数据设置41

3.3.3 排序结果及略论41-43

3.3.4 排序特征略论43-44

3.4 使用输入排序的系统融合44-48

3.4.1 使用输入排序的句子级别系统融合44-46

3.4.2 使用输入排序的词汇级别系统融合46-48

3.5 小结48-49

第4章 添加局部特征的混淆网络对数线性模型49-65

4.1 引言49

4.2 混淆网络的构建49-54

4.2.1 基于编辑距离的对齐49-51

4.2.2 基于统计的对齐51-54

4.3 基于对数线性模型的解码和调参54-58

4.3.1 对数线性模型54-55

4.3.2 柱搜索算法55-57

4.3.3 MERT 调参57-58

4.4 对数线性模型使用的特征58-60

4.4.1 常用的特征58

4.4.2 局部语言模型特征58-59

4.4.3 局部 Skip-gram 模型59-60

4.5 实验结果及略论60-63

4.5.1 实验数据设置60

4.5.2 结果及略论60-63

4.6 本章小结63-65

结论65-66

参考文献66-70

攻读学位期间的论文70-72

免费论文题目: