汉语—泰语的跨语言查询翻译和扩展[泰语论文]-外语论文网

【摘要】：近年来,随着中国和泰国关系的发展,两国之间在文化、经济、政治等各个方面的交流也不断深入。由于汉语和泰语属于两种不同的语言,为网络信息交流和沟通带来了很多的障碍。为了更好的分享互联网信息,促进中泰网络信息交流,跨语言信息检索技术的探讨被提上了日程,它可以很好的解决此语言交流问题。为了提高汉语-泰语的跨语言信息检索的性能,本文探讨了汉泰跨语言查询翻译和查询扩展。目前在汉-泰双语语言信息化探讨方面,主要集中在泰语或汉语本身的词法、句法、及语义方面的探讨,而专门针对汉语和泰语之间的信息处理方面,如汉语与泰语之间的机器翻译、查询扩展等方面的探讨工作开展的工作还比较少。在汉语到泰语的翻译探讨中,当前没有合适的双语词典作为翻译工具,而且很多未登录词和命名实体也无法用词典翻译,同时也容易产生翻译歧义的问题；由于没有合适的知识库作为扩展词的来源,对泰语扩展词的探讨带来了一定的难度。针对以上问题,主要完成了以下探讨工作：(1)基于Word2Vec的汉语查询语句的翻译措施针对汉语查询语句的翻译,本文提出了一种基于深度学习工具Word2Vec的汉泰翻译措施。该措施首先需要将汉泰可比语料库中的词,利用Word2Vec工具训练成词向量的形式,以此可以方便挖掘出汉语和泰语词与词之间的线性映射关系,此线性映射关系体现在将不同语言中,概念相似的词的词向量映射到向量空间中其空间分布是相似的。本文利用这种相似分布关系训练出汉泰的翻译矩阵,并通过翻译矩阵获取到泰语翻译候选词。(2)泰语翻译候选词的选取针对翻译歧义问题,本文利用汉语和泰语双语之间的词与词之间的翻译概率关系,结合单语词与词之间的关联关系,提出了一种泰语翻译候选词的筛选措施,用来消除翻译歧义并得到最优的翻译泰语词。(3)泰语查询扩展模型的构建为了提高检索系统的性能,本文提出了一种基于伪相关反馈法的泰语查询扩展措施。该措施的核心思想主要是运用Lucene检索技术检索返回相关文档集,并将返回的相关文档作为扩展词的来源,再利用将KL距离和词共现两种扩展技术通过Borda Count排序法相结合的措施,计算得出查询扩展词。最后,将扩展词添加到原查询语句中,最终可得到泰语查询扩展语句。(4)设计并实现汉泰跨语言查询翻译和扩展的原型系统,为进一步探讨汉泰跨语言信息检索提供了平台,为以后的跨语言查询扩展的探讨做好坚实的基础。

【关键词】：跨语言信息检索 查询扩展 查询翻译 翻译消岐 Word2Vec
【学位授予单位】：昆明理工大学
【学位级别】：
【学位授予年份】：2017
【分类号】：H412
【目录】：

摘要5-6

Abstract6-10

第一章绪论10-16

1.1 探讨背景及意义10-12

1.2 国内外探讨近况12-14

1.3 论文的探讨内容14

1.4 论文组织结构14-16

第二章基于Word2Vec的查询翻译16-28

2.1 引言17

2.2 汉语和泰语之间的关系17-18

2.3 基于维基百科的汉泰可比语料18-21

2.3.1 统计语言模型18

2.3.2 词向量18-19

2.3.3 神经网络语言模型19-20

2.3.4 Word2Vec工作原理20-21

2.4 基于Word2vec的汉语查询词的翻译21-22

2.4.1 汉语到泰语的翻译矩阵22

2.5 实验与略论22-26

2.5.1 实验数据22-24

2.5.2 评价指标24-25

2.5.3 实验设计与结果略论25-26

2.6 本章小结26-28

第三章泰语翻译候选词选取28-36

3.1 引言28-29

3.2 单语词之间的相似度计算29-30

3.3 汉语词与泰语词之间的关系30-32

3.4 候选词选取措施32-33

3.5 实验设计与略论33-34

3.5.1 实验数据33-34

3.5.2 实验结果与略论34

3.6 本章小结34-36

第四章基于伪相关反馈的汉泰跨语言查询扩展36-46

4.1 引言36

4.2 相关工作36-37

4.3 伪相关反馈查询扩展措施37-38

4.4 Lucene检索模型与文档排序算法38-39

4.5 扩展词选取算法39-41

4.5.1 基于KL距离措施的查询扩展39-40

4.5.2 基于词共现查询扩展40-41

4.5.3 Borda Count结合排序法41

4.6 实验及略论41-45

4.6.1 实验数据及略论41-42

4.6.2 评价指标42-43

4.6.3 实验设计与结果略论43-45

4.7 本章小结45-46

第五章汉泰跨语言查询扩展原型系统的设计与实现46-54

5.1 引言46

5.2 系统整体框架46-47

5.3 文本数据采集与处理47-50

5.4 系统运行效果50-52

5.5 本章小结52-54

第六章总结与展望54-56

6.1 论文总结54

6.2 工作展望54-56

致谢56-58

参考文献58-64

附录A 攻读期间论文与申请软件作品权64-66

附录B 攻读期间参与项目66

，泰语论文，泰语论文范文

谨防“山寨”版泰国香米	泰国华人社团史探讨	泰国旅游有“三忌”
泰语词汇语法ติด“贴”，“上瘾”范	日轻在泰国建室内全铝空调器热交换器	泰语熟语：欲速则不达
湖南中泰研发高强高模聚乙烯纤维	试析广西讲壮话的学生学习泰语的优势和	外国游客对泰国旅游业作用的实证探讨
让心情好起来的五种食物	泰国大学生汉语学习动机调查与略论	泰国学生学习汉语的辅音偏误略论及教学
泰国特色商品专卖店	汉泰语“红”、“白”、“蓝”颜色词构	泰国商务部下调油棕果指导价