中泰跨语言话题检测措施与技术探讨[泰语论文]

资料分类免费泰语论文 责任编辑:Anchali更新时间:2017-06-22
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。
【摘要】:随着信息化社会的快速发展,人们已经越来越习惯从互联网上获取新闻信息,为了能够从海量的信息中得到我们所需要的信息,话题检测技术被科学家们提出来,其主要目的是检测出新闻文本描述的话题。互联网语言的多样化使得人们已经不满足于获取单一语言的信息,于是跨语言话题检测技术逐渐受到探讨人员的重视,跨语言话题检测技术是指在不同语言环境下检测出新闻文本的话题。本文首先提出一种基于WordNet的中泰文跨语言文本相似度算法,计算中文新闻文本和泰文新闻文本的相似度,得到相似文本对,用于下一步构建中泰跨语言联合LDA模型。首先对中泰文本进行预处理以及选择特征,然后在多语言WordNet下将中泰文本转换到中间层语言空间,语义消歧后在中间层计算相似度。实验得到的本文相似度算法的准确率达到82%,取得较好效果。在中泰相似文本对的基础上,我们使用LDA模型对文本建模,得到中泰跨语言联合LDA模型,然后使用Gibbs Sampling措施来求解该联合LDA模型,将得到的中文话题和泰文话题进行对齐,推断出模型的参数和中泰文本的话题分布。利用该中泰文跨语言联合LDA模型完成跨语言话题检测技术的两个子任务。最后进行实验设计及略论,通过实验结果数据验证了本文算法的可行性。

【关键词】:跨语言话题检测 跨语言文本相似度 WordNet 跨语言联合LDA模型
【学位授予单位】:昆明理工大学
【学位级别】:
【学位授予年份】:2017
【分类号】:TP391.1
【目录】:

摘要3-4

Abstract4-8

第一章 绪论8-15

1.1 探讨背景8-9

1.1.1 话题检测技术的缘起8

1.1.2 跨语言话题检测技术8-9

1.2 探讨近况9-12

1.2.1 单语言话题检测探讨近况9-11

1.2.2 跨语言话题检测探讨近况11-12

1.3 本文主要创新工作12-14

1.4 本文结构14-15

第二章 相关探讨及理论介绍15-26

2.1 单语言文本相似度算法15-18

2.1.1 文本相似度的定义15

2.1.2 常见文本相似度算法15-18

2.2 跨语言文本相似度算法18-19

2.3 WordNet简介19-20

2.4 主题模型20-24

2.4.1 PLSA模型20-21

2.4.2 LDA模型21-24

2.5 话题检测中的几个基本概念24-26

2.5.1 事件24

2.5.2 话题24

2.5.3 新闻报道24

2.5.4 新闻报道-话题-事件的关系24-26

第三章 中泰文跨语言文本相似度计算措施探讨26-37

3.1 引言26

3.2 文本预处理26-28

3.3 文本特征选择28-29

3.4 中泰语言空间的转换29-30

3.5 语义消歧30-32

3.6 中泰文本相似度计算32-37

3.6.1 基于信息内容相似度算法32-34

3.6.2 改进IC模型34

3.6.3 算法设计34-37

第四章 中泰跨语言话题检测措施探讨37-53

4.1 跨语言话题检测任务37-38

4.2 中泰文跨语言话题检测总体结构38-39

4.3 中泰新闻文本的爬取39-40

4.4 中泰文相似文本对构建40-42

4.5 中泰跨语言联合LDA模型的构建42-43

4.6 LDA模型Gibbs Sampling求解法43-45

4.7 基于互信息的中泰话题对齐算法45-48

4.7.1 互信息的定义45

4.7.2 中泰话题对齐45-48

4.8 中泰跨语言话题检测任务实现48-53

4.8.1 跨语言话题聚类50-51

4.8.2 跨语言新话题检测51-53

第五章 实验结果及略论53-61

5.1 中泰文跨语言文本相似度计算实验及略论53-55

5.1.1 语义消歧实验53-54

5.1.2 中泰文跨语言文本相似度计算实验54-55

5.2 中泰跨语言话题检测实验设计及略论55-60

5.2.1 封闭新闻文本集实验56-58

5.2.2 开放新闻文本集实验58-59

5.2.3 中泰跨语言新话题检测实验59-60

5.3 小结60-61

第六章 结论61-63

致谢63-64

参考文献64-68

攻读学位期间的学术成果68-70

泰语毕业论文泰语毕业论文
免费论文题目: