【摘要】:随着信息化社会的快速发展,人们已经越来越习惯从互联网上获取新闻信息,为了能够从海量的信息中得到我们所需要的信息,话题检测技术被科学家们提出来,其主要目的是检测出新闻文本描述的话题。互联网语言的多样化使得人们已经不满足于获取单一语言的信息,于是跨语言话题检测技术逐渐受到探讨人员的重视,跨语言话题检测技术是指在不同语言环境下检测出新闻文本的话题。本文首先提出一种基于WordNet的中泰文跨语言文本相似度算法,计算中文新闻文本和泰文新闻文本的相似度,得到相似文本对,用于下一步构建中泰跨语言联合LDA模型。首先对中泰文本进行预处理以及选择特征,然后在多语言WordNet下将中泰文本转换到中间层语言空间,语义消歧后在中间层计算相似度。实验得到的本文相似度算法的准确率达到82%,取得较好效果。在中泰相似文本对的基础上,我们使用LDA模型对文本建模,得到中泰跨语言联合LDA模型,然后使用Gibbs Sampling措施来求解该联合LDA模型,将得到的中文话题和泰文话题进行对齐,推断出模型的参数和中泰文本的话题分布。利用该中泰文跨语言联合LDA模型完成跨语言话题检测技术的两个子任务。最后进行实验设计及略论,通过实验结果数据验证了本文算法的可行性。
【关键词】:跨语言话题检测 跨语言文本相似度 WordNet 跨语言联合LDA模型
摘要3-4 Abstract4-8 第一章 绪论8-15 1.1 探讨背景8-9 1.1.1 话题检测技术的缘起8 1.1.2 跨语言话题检测技术8-9 1.2 探讨近况9-12 1.2.1 单语言话题检测探讨近况9-11 1.2.2 跨语言话题检测探讨近况11-12 1.3 本文主要创新工作12-14 1.4 本文结构14-15 第二章 相关探讨及理论介绍15-26 2.1 单语言文本相似度算法15-18 2.1.1 文本相似度的定义15 2.1.2 常见文本相似度算法15-18 2.2 跨语言文本相似度算法18-19 2.3 WordNet简介19-20 2.4 主题模型20-24 2.4.1 PLSA模型20-21 2.4.2 LDA模型21-24 2.5 话题检测中的几个基本概念24-26 2.5.1 事件24 2.5.2 话题24 2.5.3 新闻报道24 2.5.4 新闻报道-话题-事件的关系24-26 第三章 中泰文跨语言文本相似度计算措施探讨26-37 3.1 引言26 3.2 文本预处理26-28 3.3 文本特征选择28-29 3.4 中泰语言空间的转换29-30 3.5 语义消歧30-32 3.6 中泰文本相似度计算32-37 3.6.1 基于信息内容相似度算法32-34 3.6.2 改进IC模型34 3.6.3 算法设计34-37 第四章 中泰跨语言话题检测措施探讨37-53 4.1 跨语言话题检测任务37-38 4.2 中泰文跨语言话题检测总体结构38-39 4.3 中泰新闻文本的爬取39-40 4.4 中泰文相似文本对构建40-42 4.5 中泰跨语言联合LDA模型的构建42-43 4.6 LDA模型Gibbs Sampling求解法43-45 4.7 基于互信息的中泰话题对齐算法45-48 4.7.1 互信息的定义45 4.7.2 中泰话题对齐45-48 4.8 中泰跨语言话题检测任务实现48-53 4.8.1 跨语言话题聚类50-51 4.8.2 跨语言新话题检测51-53 第五章 实验结果及略论53-61 5.1 中泰文跨语言文本相似度计算实验及略论53-55 5.1.1 语义消歧实验53-54 5.1.2 中泰文跨语言文本相似度计算实验54-55 5.2 中泰跨语言话题检测实验设计及略论55-60 5.2.1 封闭新闻文本集实验56-58 5.2.2 开放新闻文本集实验58-59 5.2.3 中泰跨语言新话题检测实验59-60 5.3 小结60-61 第六章 结论61-63 致谢63-64 参考文献64-68 攻读学位期间的学术成果68-70 ,泰语毕业论文,泰语毕业论文 |