融合新闻要素的汉—泰双语新闻文本相似度计算措施探讨[泰语论文]

资料分类免费泰语论文 责任编辑:Anchali更新时间:2017-06-22
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。
【摘要】:文本相似计算是自然语言处理的重要课题之一,在文本挖掘、信息检索、文本查重、机器翻译、和文本分类中运用广泛。文本相似度是表示两个或多个文本之间匹配程度的一个度量参数。单语言文本的相似度计算探讨目前已经有了相当的成果。但随着信息化社会的不断发展,人们已经习惯性从网上获取信息,强大的互联网扩散了人们对未知的渴求,人们再也不满足于单一的语言信息,互联网语言的多样化满足了人们对海量信息的需求,于是跨语言新闻搜索,跨语言文本检测逐渐受到人们的重视。本文首先对汉语新闻文本的相似度计算进行了探索,关于文本相似度常用的VSM措施,具有计算维数过高和计算过于复杂的缺点。通过对新闻报道文本的略论发现,新闻报道具有何时、何地、何事、何因、何人五个基本因素的特点。针对这一特性,提出融合新闻要素的新闻文本相似度计算措施。该措施充分考虑到了新闻文本的五个新闻要素特征词对文本相似度的作用,有效减少了相似度低的文本干扰和传统文本相似度计算效率低的问题。本文在相似度计算中,抽取新闻文本的新闻要素,并对新闻要素进行分类集合,然后利用集合相似度计算和数据融合措施来计算两篇新闻文本相似度,并与传统文本相似度计算措施中的基于空间向量余弦系数和Jaccard系数措施进行实验对比,通过对比实验,验证了本文措施对新闻文本相似度计算的有效性和准确性。在中文文本相似度计算算法的基础上,对汉-泰跨语言新闻文本的相似度计算措施进行探讨,结合中文的新闻文本相似度计算措施,同样考虑新闻何时、何地、何事、何因、何人五个基本因素的特点,利用基于知网的集合相似度算法进行计算,不同的是在泰语新闻文本的处理过程中,我们借助翻译工具,将进行分词、词性标注和命名实体识别后的新闻要素集合元素转化为对应的中文,在转化过程中需要进行语义消歧,最后转化成中文的新闻文本要素集合相似度计算。在语言转化和消歧时,借用互信息的原理和词性标注中词的词性进行消歧,在互信息和词性标注的双重筛选下进行词意的选择,这样保证了词语语言转换的准确性,对文本相似度计算的准确性有了保证。通过实验验证了融合新闻要素的跨语言新闻文本计算在计算新闻文本的相似度的效率和准确度上都优于普通文本相似度计算措施。

【关键词】:文本相似度 跨语言文本相似度 新闻要素 语义消歧 数据融合
【学位授予单位】:昆明理工大学
【学位级别】:
【学位授予年份】:2017
【分类号】:TP391.1
【目录】:

摘要5-7

Abstract7-11

第一章 绪论11-15

1.1 探讨背景及意义11

1.2 国内外探讨近况11-13

1.2.1 中文文本相似度探讨近况11-12

1.2.2 跨语言文本相似度计算12-13

1.3 探讨内容13-14

1.4 论文的组织14-15

第二章 相关理论与技术介绍15-35

2.1 汉语文本相似度计算措施15-17

2.1.1 文本相似度定义15

2.1.2 向量空间模型15-16

2.1.3 基于隐性语义索引模型(LSI)16-17

2.1.4 基于属性理论为基础的属性重心剖分模型17

2.2 跨语言文本相似度计算措施17-19

2.3 基于《知网》的集合相似度算法19-22

2.3.1 《知网》介绍19-20

2.3.2 集合相似度算法20-22

2.4 文本预处理22-30

2.4.1 泰语分词22-24

2.4.2 CRFs泰语分词24-25

2.4.3 基于音节的层叠CRFs泰语分词25-28

2.4.4 泰语词性标注28

2.4.5 条件随机场词性标注模型28-29

2.4.6 特征选择与标注集29-30

2.5 泰语命名实体识别30-31

2.6 互信息31-32

2.6.1 互信息概念31-32

2.7 本章小结32-35

第三章 融合新闻要素的中文新闻文本相似度计算35-41

3.1 引言35

3.2 中文文本的预处理35-36

3.3 新闻要素抽取36-37

3.4 新闻要素集合相似度计算37-38

3.5 新闻文本相似度计算38

3.6 本章小结38-41

第四章 汉-泰双语新闻文本相似度计算措施41-47

4.1 引言41

4.2 泰语新闻文本爬取41

4.3 泰语文本预处理41-42

4.4 新闻五要素抽取42

4.5 语义消歧42-44

4.6 新闻要素集合相似度计算44

4.7 新闻文本相似度计算44-45

4.8 本章小结45-47

第五章 实验结果及略论47-59

5.1 新闻文本爬取步骤47-48

5.2 中文新闻文本相似度计算实验略论48-52

5.3 文本预处理准确度评测52-54

5.4 汉-泰新闻文本相似度计算结果略论54-57

5.5 本章小结57-59

第六章 结论59-61

致谢61-63

参考文献63-67

附录A 攻读期间的论文67-69

附录B 攻读学位期间参与的科研项目69

泰语论文网站泰语论文范文
免费论文题目: