【摘要】:我国与越南国土接壤,加之全球化的不断发展,我国与越南在政治、经济文化等方面的联系越来越密切。在这种情形下,了解越南国内的消息对我们非常重要,随着计算机和互联网的发展,使我们通过互联网就可以快速了解越南国内新闻,但是现在越来越多的新闻在网络上充斥着,使我们不能迅速地从众多的新闻中找到自己所关心了解的内容。如何利用信息抽取技术将非结构化的信息以结构化的形式呈现出来,是我们要解决的问题,对我们了解越南的政治、经济和文化等方面的消息具有重要的意义。本文针对越南语新闻事件元素的问题,围绕越南语新闻关键事件主题句识别,主题句依存树构建、越南语新闻事件元素抽取的措施展开了相关探讨,主要完成以下工作:(1)基于TextRank加权的越南语新闻关键事件主题句提取通过略论越南语新闻文档特点,发现关键词对新闻事件句具有重要的影响。首先对新闻文档进行预处理,包括分词、词性标注、命名实体识别以及停用词过滤等;然后对新闻文档中句子的关键词计算MI值来确定事件句;接着对事件句构建有向图,引入句子位置、句子相似度和关键词覆盖率三个作用因子来确定句子之间的作用权重,利用TextRank模型对图中的每个点进行打分;最后选取排名最靠前的句子作为关键事件主题句。(2)越南语新闻事件主题句依存树构建通过对越南语词汇和语法方面的探讨,发现越南语和中文在语法上除了定语后置以外大体是一致的,越南语通过词序表达意思,改变了词序就改变了整句话的意思。所以我们在越南语新闻关键事件主题句提取的基础上,构建越南语新闻关键事件主题句语料库,同时构建了对应的汉语主题句的语料库,通过构建中文依存树,将对应的汉语句子依存关系映射到相应的越南语句子上,构建越南语新闻关键事件主题句依存树。(3)基于依存树的越南语新闻事件元素抽取在事件元素抽取的过程中,通过将越南语的语法特点和构建的越南语新闻关键事件主题句相结合,从而定义对应的规则来抽取越南语新闻事件的触发词以及相关的事件元素。(4)利用上述探讨成果,设计实现了基于依存树的越南语新闻事件元素抽取原型系统。
【关键词】:越南语 主题句抽取 依存树 事件元素抽取
摘要5-6 Abstract6-11 第一章 绪论11-17 1.1 探讨背景及意义11-12 1.2 国内外探讨近况12-14 1.3 探讨内容14-15 1.4 论文的组织15-17 第二章 相关探讨17-27 2.1 引言17 2.2 主题句17-19 2.2.1 主题句概述17 2.2.2 主题句探讨近况17-19 2.2.3 主题句评测19 2.3 依存树19-23 2.3.1 依存树概述20 2.3.2 依存树探讨近况20-22 2.3.3 依存句法略论器评价标准22-23 2.4 事件抽取23-26 2.4.1 事件抽取概述23-24 2.4.2 事件抽取探讨近况24-26 2.4.3 事件抽取评测26 2.5 本章小结26-27 第三章 越南语新闻关键事件主题句提取27-37 3.1 引言27 3.2 越南语新闻特点27-29 3.3 关键事件主题句提取29-34 3.3.1 关键事件主题句提取流程29-30 3.3.2 预处理及事件句识别30-31 3.3.3 TextRank加权计算关键事件主题句提取31-34 3.4 本章小结34-37 第四章 基于依存树的越南语新闻事件元素抽取37-47 4.1 引言37 4.2 越南语特点37-39 4.2.1 越南语词汇特点37-38 4.2.2 越南语语法特点38-39 4.3 主题句依存树构建39-41 4.3.1 越南语主题句依存树标注规范39 4.3.2 越南语主题句依存树构建39-41 4.4 越南语新闻事件元素抽取41-45 4.4.1 越南语新闻事件元素41-42 4.4.2 越南语新闻事件元素42-45 4.5 本章小结45-47 第五章 原型系统构建及实验结果47-55 5.1 引言47 5.2 系统构建47-48 5.3 功能展示48-52 5.3.1 关键事件主题句提取48-51 5.3.2 依存树构建及事件元素抽取51-52 5.4 关键事件主题句实验结果与略论52-53 5.4.1 实验语料及评测标准52 5.4.2 实验结果与略论52-53 5.5 越南语新闻事件元素抽取出实验结果与略论53-54 5.5.1 实验语料54 5.5.2 实验结果及略论54 5.6 本章小结54-55 第六章 总结与展望55-57 6.1 总结55-56 6.2 工作展望56-57 致谢57-59 参考文献59-63 附录A 攻读期间论文与申请软件作品权63-65 附录B 攻读期间参与项目65 ,越南语论文题目,越语论文范文 |