基于句法语义特征的中文实体关系抽取[法语论文]

资料分类免费法语论文 责任编辑:黄豆豆更新时间:2017-05-08
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

  摘要:实体关系特征的选择是实体关系抽取的核心问题。在以前的探讨主要要是以实体原始特征和词法特征来体现实体关系,在一定程度上来说很难再将抽取效果进一步提高。本文在传统的探讨基础之上,阐述一种以语义句法为主要特征进行抽取的新措施,并且融入了谓词、句法语义等一些角色,将SVM作为辅助工具,将真实的新闻消息进行试验。
中国论文网
  关键词:句法语义特征;关系抽取
  相对而言,由于中文语言结构的独特性和语义的复杂性,中文实体关系抽取探讨整体上与国外的探讨还存在一定差距,常用的基于浅层语法略论获取特征的措施已经达到瓶颈。本文也将采用 SVM模型训练语料,但于以往不同的是,该措施扩展了实体关系特征的选择范围,除了传统的词法特征、实体原始特征外,又选择了句法特征、语义特征等作为实体关系特征,主要包 括语义 角 色标注、依存 句法关系、核心谓词特征等,并依据中文的语法特点对这些特征进行有机整合,得到二元实体对之间的丰富关系特征,最后交由SVM 进行训练和测试。
  一、本文的主要探讨措施
  (一)SVM的实体关系与句法语义特征抽取措施过程
  探讨措施依据LTP-Cloud对原始语料进行简单的初步处理,利用LTP-Cloud对原始语料的词、句法作为略论结果的基础,之后生成二元实体对,将实体对的特征数据采集起来,转化成训练文本,然后再将训练文本交给SVM进行强化训练。这不仅是本文的创新内容还是最主要的核心部分,因为LTP-Cloud主要以单个句子为探讨对象,这就需要我们获取命名实体信息,将实体句子相互结合,形成实体对,假如说只有一个实体或者是没有实体,那就说明不存在真正的实体关系,就需要我们将其去掉。
  (二)实体关系的基本特征
  常规的实体关系特征主要从词法略论结果来获取,以往的探讨已经表明了这些特征的有效性。面向句子中所有实体组成的二元实体对,本文选择的基本实体关系主要特征如下:
  1.实体种类。目前LTP-Cloud能够识别的实体种类有人名、地名、组织机构名。
  2.实体长度。根据命名实体结果的标识信息中,获取多词实体的边界,并根据其首尾词的位置来计算实体长度。
  3.实体内容。这里采用词袋机制将实体内容由字符转换为数字。
  4.实体中各词的词性标注。
  5.实体的上下文环境。包括实体前后两个词的内容以及词性标注信息。
  (三)句法语义的主要特征
  本措施对处理结果再进一步的深入探讨,可以得到更多的句法语义特征。
  1.句法依存关系。将获取实体对中每一个实体在原句中所属的句法依存关系值。
  2.实体与核心谓词的距离。根据实体首词在句中的位置和核心谓词的位置,计算出每一个实体与核心谓词的距离。
  3.语义角色标注。LTP-Cloud的初步结果中包含了针对所有谓词的语义角色标注结果,但是只有基于核心谓词的语义角色标注的覆盖度是最广的,所以这里也仅选择基于核心谓词的语义角色标注结果作为这一特征来源,获取实体对中每一个实体所属的语义角色成分,将其作为实体关系的一种特征。
  每组实体对的实际特征个数会随着实体长度的不同而不同;这些特征之间的相对位置并不是任意的,需要根据一定的规律合理安排。
  二、试验措施与结果略论
  (一)实验结果评价标准
  预设了4种实体关系种类:人名实体与组织机构实体之间的雇佣关系、组织机构实体与地名实体之间的位于关系、属于同一种实体类型的 同 类 关 系和 无 关 系。由于本文亦将实 体关 系抽取过程看作是分类的过程,所以这里的评价方式也采用常规的准确率、召回率和F1值。
  因为分类标注问题不同于信息检索问题,所以应计算所有实体关系种类的准确率和召回率的平均值,以此作为整体抽取结果的准确率和召回率,法语论文范文,并由此得出整体F1值。
  (二)实验设计思路
  本措施用1998年1月份的人民日报所有版面内容作为语料,共含有4万多个中文句子。由于LTP-Cloud需要以句子为基本处理对象,所以还需采用基于规则的措施将语料内容进行分句。将上述语料通过LTP-Cloud处理后,可得到含有约8.5万个唯一实体的处理结果,由此可得到约3.6亿个二元实体对,将其中的80%作为训练语料,20% 作为测试语料,进一步略论出实体对中句法语义特征数据,并人工添加实体关系分类标注,最终形成训练语料。采用libSVM作为辅助工具,在SVM的训练过程中,选择RBF作为核函数,采用交叉验证法,得到最优参数c=2.0, g=0.5, CV rate=73.1905。实验程序采用Python语言编写实现。
  (三)实验结果略论
  为了与传统探讨措施进行比较,对比组选取传统的基本特征,实验组在原有传统基本特征的基础之上加入句法语义特征。
  通过以上的统计结果探讨显示,实验组的抽取效果很明显的优越于对照组。同时位于关系、同类关系和无关系的效果更加明显一些,所以说本探讨措施是有一定的实际意义的。
  但是其中也存在一个明显的问题,从局部来看,部分实体关系抽取的效果相对较差,例如,人名实体与组织机构实体之间的雇佣关系。在实体对中,并不是只要存在一个人名实体与一个组织机构实体,法语论文题目,就应认定他��之间存在雇佣关系,只是在句中的位置、具体的词不同,所以这就容易导致分类错误。
  三、结束语
  本文提出了一种基于句法语义特征的实体关系抽取措施,与以往的实体关系抽取措施相比,本文新增了句法略论结果和语义略论结果作为为实体关系的特征,实验结果表明此措施效果明显。另外,本措施以句子为处理单位,缺少篇章处理的视野,未来将在上述方面继续做深入探讨。
  参考文献:
  [1]徐健,张智雄,吴振新.实体关系抽取的技术措施综述[J].现代图书情报技术,2014,24(08):18-23.

免费论文题目: