越南语新闻事件元素抽取措施探讨[越南语论文]

资料分类免费越南语论文 责任编辑:阮圆圆更新时间:2017-06-18
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。
【摘要】:随着全球化的不断推进,中国与东盟各国的交流越来越频繁。越南作为与中国接壤的国家,与中国在政治、经济、文化等方面的交流更是与日俱增。为了更好的了解越南对中国在政治、经济等重要领域的事件看法,收集越南国内的新闻语料并对其进行系统管理、略论和提取出里面的重要事件元素就具有非常重要的探讨意义。本文针对越南语新闻事件元素抽取中的关键问题,围绕越南语的分词、词性标注、越南语新闻事件语料库构建、越南语新闻命名实体识别措施以及基于模板和最大熵模型相结合的越南语新闻事件元素抽取措施开展了相关探讨,主要完成以下特色探讨工作: (1)开发了一个通用的越南语分词和词性标注系统平台。针对现有的越南语分词和词性标注工具包提供的核心API和模型,集成开发了一个越南语通用的分词和词性标注平台,为后续的越南语新闻事件元素抽取奠定基础。 (2)构建了越南语新闻事件语料库。对越南语新闻事件进行了定义,选取了获取越南语的新闻语料来源网站,并对获取的越南语新闻语料进行类型、类别、分词、词性标注、新闻实体标注、触发词和事件元素标注等一系列的标注工作,并将略论后的语料进行存储,构建了越南语新闻事件语料库。 (3)提出了一种基于条件随机场的越南语新闻命名实体识别措施。针对越南语词和词性的特点,定义了越南语实体识别的特征模板,利用收集的越南语新闻事件语料对越南语人名、地名、组织机构名、百分比、货币、钱数和时间日期等进行标注,并采用条件随机场措施训练得到越南语新闻命名实体模型,最后利用该模型实现面向越南语的新闻命名实体识别。 (4)提出了一种基于模板和最大熵模型相结合的越南语新闻事件元素抽取措施。该措施首先略论了越南语新闻事件的特点,然后对越南语新闻事件的类型和类别进行识别,定义事件的抽取模板,并结合最大熵模型对越南语新闻事件元素进行抽取。 (5)利用上述探讨成果,设计实现了越南语新闻事件元素抽取的原型系统。

【关键词】:越南语 分词和词性标注 语料库构建 命名实体识别 事件元素抽取
【学位授予单位】:昆明理工大学
【学位级别】:
【学位授予年份】:2017
【分类号】:TP391.1
【目录】:

摘要5-6

Abstract6-11

第一章 绪论11-19

1.1 探讨背景及意义11-12

1.2 国内外探讨近况12-15

1.3 论文的探讨内容15-16

1.4 论文的组织16-19

第二章 越南语分词和词性标注平台19-25

2.1 引言19

2.2 越南语特点19-20

2.2.1 词汇19-20

2.2.2 语法20

2.3 越南语分词和词性标注20-21

2.4 越南语分词和词性标注平台21-23

2.4.1 越南语分词21-22

2.4.2 越南语词性标注22-23

2.5 本章小结23-25

第三章 越南语新闻事件语料库构建25-41

3.1 引言25

3.2 越南语新闻事件定义25-26

3.3 越南语新闻语料获取26-32

3.3.1 语料来源26-27

3.3.2 网页结构略论27-29

3.3.3 网页爬取29-30

3.3.4 网页内容解析30-32

3.4 越南语新闻语料标注32-35

3.4.1 类型标注34

3.4.2 类别标注34

3.4.3 分词和词性标注34

3.4.4 实体标注34-35

3.4.5 触发词标注35

3.4.6 事件元素标注35

3.5 越南语新闻事件语料存储35-39

3.6 本章小结39-41

第四章 基于条件随机场的越南语新闻命名实体识别41-47

4.1 引言41

4.2 特征模板定义和模型构建41-43

4.2.1 特征模板定义41-42

4.2.2 模型构建42-43

4.3 实验及结果略论43-46

4.3.1 语料43-45

4.3.2 实验结果及略论45-46

4.4 本章小结46-47

第五章 基于模板和最大熵相结合的越南语新闻事件元素抽取47-63

5.1 引言47-48

5.2 越南语新闻事件的特点48-49

5.3 新闻事件类型识别49-54

5.3.1 新闻事件预处理49-50

5.3.2 事件触发词50-51

5.3.3 事件类型确定51-54

5.4 新闻事件类别识别54-55

5.5 基于模板和最大熵相结合的事件元素抽取55-61

5.5.1 基于模板的事件元素抽取55-56

5.5.2 基于最大熵的事件元素抽取56-61

5.6 实验结果与略论61-62

5.6.1 语料61

5.6.2 实验结果及略论61-62

5.7 本章小结62-63

第六章 越南语新闻事件元素抽取原型系统63-71

6.1 引言63

6.2 实验环境63-64

6.3 系统架构64

6.4 系统核心部分的设计与实现64-69

6.4.1 越南语分词65-66

6.4.2 越南语词性标注66-67

6.4.3 越南语语料库的构建67

6.4.4 越南语新闻命名实体识别67-68

6.4.5 越南语新闻事件元素抽取68-69

6.5 本章小结69-71

第七章 总结和展望71-73

7.1 总结71-72

7.2 工作展望72-73

致谢73-75

参考文献75-79

附录A 攻读期间论文79-80

附录B 攻读期间申请软件作品权80-81

附录C 攻读期间参与项目81

越语专业论文越语毕业论文
免费论文题目: