【摘要】:近年来,随着中国和泰国关系的发展,两国之间在文化、经济、政治等各个方面的交流也不断深入。由于汉语和泰语属于两种不同的语言,为网络信息交流和沟通带来了很多的障碍。为了更好的分享互联网信息,促进中泰网络信息交流,跨语言信息检索技术的探讨被提上了日程,它可以很好的解决此语言交流问题。为了提高汉语-泰语的跨语言信息检索的性能,本文探讨了汉泰跨语言查询翻译和查询扩展。目前在汉-泰双语语言信息化探讨方面,主要集中在泰语或汉语本身的词法、句法、及语义方面的探讨,而专门针对汉语和泰语之间的信息处理方面,如汉语与泰语之间的机器翻译、查询扩展等方面的探讨工作开展的工作还比较少。在汉语到泰语的翻译探讨中,当前没有合适的双语词典作为翻译工具,而且很多未登录词和命名实体也无法用词典翻译,同时也容易产生翻译歧义的问题;由于没有合适的知识库作为扩展词的来源,对泰语扩展词的探讨带来了一定的难度。针对以上问题,主要完成了以下探讨工作:(1)基于Word2Vec的汉语查询语句的翻译措施针对汉语查询语句的翻译,本文提出了一种基于深度学习工具Word2Vec的汉泰翻译措施。该措施首先需要将汉泰可比语料库中的词,利用Word2Vec工具训练成词向量的形式,以此可以方便挖掘出汉语和泰语词与词之间的线性映射关系,此线性映射关系体现在将不同语言中,概念相似的词的词向量映射到向量空间中其空间分布是相似的。本文利用这种相似分布关系训练出汉泰的翻译矩阵,并通过翻译矩阵获取到泰语翻译候选词。(2)泰语翻译候选词的选取针对翻译歧义问题,本文利用汉语和泰语双语之间的词与词之间的翻译概率关系,结合单语词与词之间的关联关系,提出了一种泰语翻译候选词的筛选措施,用来消除翻译歧义并得到最优的翻译泰语词。(3)泰语查询扩展模型的构建为了提高检索系统的性能,本文提出了一种基于伪相关反馈法的泰语查询扩展措施。该措施的核心思想主要是运用Lucene检索技术检索返回相关文档集,并将返回的相关文档作为扩展词的来源,再利用将KL距离和词共现两种扩展技术通过Borda Count排序法相结合的措施,计算得出查询扩展词。最后,将扩展词添加到原查询语句中,最终可得到泰语查询扩展语句。(4)设计并实现汉泰跨语言查询翻译和扩展的原型系统,为进一步探讨汉泰跨语言信息检索提供了平台,为以后的跨语言查询扩展的探讨做好坚实的基础。
【关键词】:跨语言信息检索 查询扩展 查询翻译 翻译消岐 Word2Vec
摘要5-6 Abstract6-10 第一章 绪论10-16 1.1 探讨背景及意义10-12 1.2 国内外探讨近况12-14 1.3 论文的探讨内容14 1.4 论文组织结构14-16 第二章 基于Word2Vec的查询翻译16-28 2.1 引言17 2.2 汉语和泰语之间的关系17-18 2.3 基于维基百科的汉泰可比语料18-21 2.3.1 统计语言模型18 2.3.2 词向量18-19 2.3.3 神经网络语言模型19-20 2.3.4 Word2Vec工作原理20-21 2.4 基于Word2vec的汉语查询词的翻译21-22 2.4.1 汉语到泰语的翻译矩阵22 2.5 实验与略论22-26 2.5.1 实验数据22-24 2.5.2 评价指标24-25 2.5.3 实验设计与结果略论25-26 2.6 本章小结26-28 第三章 泰语翻译候选词选取28-36 3.1 引言28-29 3.2 单语词之间的相似度计算29-30 3.3 汉语词与泰语词之间的关系30-32 3.4 候选词选取措施32-33 3.5 实验设计与略论33-34 3.5.1 实验数据33-34 3.5.2 实验结果与略论34 3.6 本章小结34-36 第四章 基于伪相关反馈的汉泰跨语言查询扩展36-46 4.1 引言36 4.2 相关工作36-37 4.3 伪相关反馈查询扩展措施37-38 4.4 Lucene检索模型与文档排序算法38-39 4.5 扩展词选取算法39-41 4.5.1 基于KL距离措施的查询扩展39-40 4.5.2 基于词共现查询扩展40-41 4.5.3 Borda Count结合排序法41 4.6 实验及略论41-45 4.6.1 实验数据及略论41-42 4.6.2 评价指标42-43 4.6.3 实验设计与结果略论43-45 4.7 本章小结45-46 第五章 汉泰跨语言查询扩展原型系统的设计与实现46-54 5.1 引言46 5.2 系统整体框架46-47 5.3 文本数据采集与处理47-50 5.4 系统运行效果50-52 5.5 本章小结52-54 第六章 总结与展望54-56 6.1 论文总结54 6.2 工作展望54-56 致谢56-58 参考文献58-64 附录A 攻读期间论文与申请软件作品权64-66 附录B 攻读期间参与项目66 ,泰语论文,泰语论文范文 |