【摘要】:随着互联网/大数据时代的到来和经济全球化的进程加快,全球互联网用户数量猛增,国与国之间普通民众通过互联网获取新闻实时热点成为一种常态,在一段时期内不同语言的用户可以通过本国的语言获取本国有关的资讯,但想要了解其它国家的新闻需要相关语言知识作为媒介或借助翻译工具,作用了不同语种用户的沟通交流,因此,双语新闻话题发现措施探讨成为各国自然语言处理领域的热点探讨问题。针对汉语-泰语双语的语言特点,本文围绕基于跨语言语料的汉泰词分布表示,汉泰双语实体对齐措施和汉泰双语新闻话题发现三个问题展开了相关探讨,主要完成以下特色探讨工作:(1)探讨汉语和泰语的跨语言词分布表示问题,略论汉语泰语的语言特点和新闻描述特点,通过弱监督学习扩展等方式生成跨语言语料,该语料把泰语名词、动词看做特殊的汉语名词、动词,两种语言词汇在同—神经概率语言模型下迭代学习词分布表示,最终模型得到的汉泰词分布可以反映汉泰词汇之间的相似度;(2)探讨汉语泰语的双语实体对齐问题,本文探讨人名、地名的实体对齐,提出了三种实体对齐措施,首先提出双语实体的相似度模糊匹配,其次,利用双语实体的词序列模式相似性提出利用汉语实体的模式去匹配泰语实体的措施;然后挖掘汉语实体的知识信息词,利用汉泰语实体的知识信息一致性,构建朴素贝叶斯双语实体对齐模型对可比语料库中的汉泰命名实体进行对齐。最后提出规则结合三种措施的优点来达到最佳对齐效果;(3)在工作一和工作二基础上探讨汉泰双语新闻话题的发现措施,提出了利用可信关联规则基于极大团聚类的双语话题发现措施,极大团聚类合理地解决了汉泰双语话题特征词分布不一致的问题,并通过实验将该措施同已有的双语话题发现措施比较,表明本文的措施取得了较好的效果。
【关键词】:汉语 泰语 弱监督学习扩展 跨语言词分布 实体对齐 极大团 双语话题发现
摘要5-6 Abstract6-10 第一章 绪论10-18 1.1 探讨背景及意义10-11 1.1.1 话题发现技术10-11 1.1.2 多语言话题发现技术11 1.2 探讨近况11-14 1.2.1 单语话题发现探讨近况11-13 1.2.2 双语新闻话题发现措施探讨近况13-14 1.3 论文的探讨内容14-15 1.4 论文的组织15-16 1.5 本文的创新工作16-18 第二章 汉泰跨语言词分布表示18-32 2.1 引言18-19 2.2 泰语的语言序列化特点19 2.3 神经概率语言模型19-20 2.4 汉泰跨语言词分布表示20-27 2.4.1 汉语与泰语的词序列分布特点20-21 2.4.2 平行语料预处理21 2.4.3 平行语料词对齐21-22 2.4.4 泰语词与汉语词相似关系替换22-25 2.4.5 大规模汉泰混合语料弱监督学习扩展过程25-26 2.4.6 模型学习26-27 2.5 实验及略论27-30 2.5.1 文本相似度计算措施27 2.5.2 实验结果与略论27-30 2.6 本章小结30-32 第三章 汉泰双语实体对齐措施探讨32-46 3.0 引言32-33 3.1 实体对齐任务33-35 3.1.1 双语实体对齐任务33 3.1.2 泰语的相关实体启发特征33-35 3.2 泰语实体识别模型35-36 3.3 相关理论基础36-37 3.3.1 朴素贝叶斯模型36-37 3.3.2 等价实体的候选泰语实体的筛选37 3.4 汉泰实体的翻译相似度匹配对齐37-38 3.5 汉泰实体的模式对齐38-39 3.6 汉泰实体的朴素贝叶斯对齐39-42 3.6.1 统计人名、地名知识信息40 3.6.2 基于朴素贝叶斯的实体对齐模型40-42 3.7 融合三种实体对齐方式的组合实体对齐规则42-43 3.8 实验及结果略论43-44 3.9 小结44-46 第四章 基于极大团聚类的汉泰双语新闻话题发现46-58 4.1 引言46 4.2 可信关联规则和极大团算法46-48 4.3 汉泰跨语言热点话题在线发现过程48-54 4.3.1 TextRank算法提取新闻关键词和生成新闻信息48-49 4.3.2 基于可信关联规则挖掘汉泰跨语言热点话题极大团49-54 4.4 实验及评价54-56 4.5 结论56-58 第五章 结论58-60 5.1 总结和展望58-60 致谢60-62 参考文献62-68 附录A 攻读期间论文68-70 附录B 攻读期间参与项目70-72 附录C 攻读期间申请软件的作品权72 ,泰语论文题目,泰语论文范文 |