泰语新闻事件触发词抽取探讨[泰语论文]

资料分类免费泰语论文 责任编辑:Anchali更新时间:2017-06-21
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

  摘要:自然语言领域内事件抽取是信息抽取中一项重要的探讨课题。事件触发词的识别与抽取在事件抽取中扮演着重要角色。针对目前缺少对泰语触发词识别与抽取的技术探讨,提出了通过中文事件触发词入手构建初始泰语新闻事件触发词表,并根据初始泰语新闻事件触发词表自动抽取泰语触发词。实验结果表明此措施很好有效的实现了泰语新闻事件触发词的识别与抽取。
外语论文网 www.waiyulw.com
  Abstract: The research of event extraction in natural language processing field is an important research topic in information extraction area, and the recognition and extraction of event trigger word plays a decisive role in event extraction. For the current situation that lacks of technology research of Thai trigger word recognition and extraction, propose to build the initial Thai news events trigger words table by Chinese event trigger words, and extract Thai trigger word automatically based on initial Thai news events trigger word table. Experimental results show that this method can effectively realize the Thai news events trigger word recognition and automatic extraction.
  关键词:事件抽取;新闻事件;泰语触发词表;触发词抽取
  Key words: event extraction;news events;Thai trigger word table;trigger word extraction
  中图分类号: TP311 文献标识码:A 文章编号:1006-4311(2017)11-0226-03
  0 引言
  随着全球化的推M,中国与泰国之间政治、经济、文化交流日益频繁。中泰两国之间各方面交往的新闻报道越来越多,而新闻报道能客观地反映一个国家对不同领域的政策和态度。对泰国新闻事件进行有效的抽取,有利于更好地了解泰语新闻报道的内容,以便更好地处理中国与泰国的国际关系。因此,对泰语新闻事件抽取探讨至关重要。
  新闻事件抽取主要把人们感兴趣的新闻以结构化的形式呈现出来,如什么时间,什么地方,发生什么事,由哪些人参与或被涉及。事件在不同领域有着不同的定义,在信息抽取(Information Extraction,IE)中,事件是指某个特定的时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情,通常情况下是句子级。在ACE(Automatic Content Extraction)评测会议中,事件定义为由事件触发词及事件元素构成。可见,事件触发词识别与抽取是事件抽取的关键。因此,本文将参照ACE2017[1]有关事件抽取的相关定义,开展泰语新闻事件触发词的抽取探讨。
  1 国内外探讨近况
  作为信息抽取的一个热门探讨领域,事件抽取探讨主要聚焦在中英文两方面。Ahn[2]用英语句中的每一个词作为实例,使用二元分类的措施判别句中的词是否为触发词,用多元分类措施识别它所属事件类型。这种措施能够自动识别触发词和事件类型。但是,句子中的每一个词作为实例用于训练机器学习模型导致引入大量的反例,造成正反例严重失衡。Hilda Hardy[3]提出了基于数据驱动的措施进行篇章级的事件识别,并进一步证明了选取特征向量用于训练常见学习算法比人工定义规则模型进行事件识别用时更短而且不受专业限制。Ji Heng[4]提出基于规则的措施对触发词、事件参与者和角色进行判断的措施实现同一话题集文档的事件抽取,不再局限于对一篇文档进行事件抽取。由于考虑了全局信息,即话题集簇中的所有相关文档,该措施取得了很好的效果。赵妍妍[5]提出根据对构建的初始中文触发词表,先采用类似TF*IDF的措施过滤存在一词多义现象的触发词,再使用《同义词词林(扩展版)》扩充触发词表,不仅提高了召回率,而且解决了由于语料小构建的触发词表有限的不足。侯立斌[6]提出了通过LDA模型对词语聚类来解决词形特征过拟合问题,并使用基于字的事件触发词检测的措施解决中文自动分词与标注与触发词边界不一致问题。LongTian[7]以CEC语料库作为训练语料及测试预料,提出了结合扩展事件触发词表与机器学习的措施进行事件触发词的自动抽取。实验结果表明提取中文事件触发词的F值达到了71.2%。朱少华[8]采用基于马尔科夫逻辑网络,利用触发词或核心词素同指与相关一致性推理规则,学习训练语料中候选触发词填充真假事件的概率和触发词实例间的关系,进行中文触发词推理,巧妙地利用同一文档中各个触发词实例之间的一致性关系,此措施触发词识别的F值达到了73.79%。
  2 泰语新闻事件触发词抽取
  首先,本文根据CEC[11]语料库创建初始中文触发词表;使用《哈工大信息检索探讨室同义词词林扩展版》[12]对初始中文触发词表进行扩展;调用百度翻译API端口[13],将中文触发词翻译为泰语,生成初始泰语触发词表。然后,对泰语新闻文本句子进行预处理,泰语论文,其中包括分词、标注词性、抽取实体,将抽取出的实体构建候选触发词集。最后,根据初始泰语触发词表计算候选触发词集中词的权重值,进而实现使用初始泰语触发词表对泰语新闻事件触发词的识别与抽取。泰语新闻事件触发词抽取过程如图1所示。   2.1 构建中文初始触发词表
  根据CEC语料构建一张中文初始触发词表。CEC语料库,包含五类新闻文本:地震、火灾、交通事故、恐怖袭击、食物中毒,共计332篇。其中已经对事件、触发词、事件类型、事件元素进行标注。构建的部分初始中文触发词表如表1所示。
  2.2 扩展初始中文触发词表
  由于语料规模太小覆盖面不够广泛,许多事件类型的触发词无法召回。如:新闻句E1印尼苏门答腊岛附近海域1个月来发生多次强震。“强震”不在地震类事件触发词表中,E1就很难被识别为地震类事件。而“强震”与地震类事件触发词表中“余震”在同义词词林中被标记为同类词。Id14E02#余震、强震。所以根据文献[14]提出的使用《哈工大信息检索探讨室同义词词林扩展版》对触发词表进行扩展来解决语料小召回率低的问题。然而,还存在一些触发词在同义词词林中有两种编码。如在同义词词林中查询“震动”可得到以下两个词条:Id14E01=颤动、抖动、颠簸、颠、震、簸荡、震荡、振荡、振动、震动、共振;Je02B01=触动、感动、打动、拨动、震动、激动、震撼、撼动、撼、动。这种情况我们判定此项词条中是否含有其他词在同事件类触发词表中。Id14E01=词条中存在“震”、“振动”同在地震类事件触发词表中,而Je02B01=词条中并不存在多个(多余两个)词同属地震类事件触发词。这种情况下,即把Id14E01=中的所有词汇扩展到地震类事件触发词表中。根据以上措施对初始中文触发词表进行扩展。部分扩展触发词表如表2所示。
  2.3 泰语触发词表的生成
  2.4 基于泰语新闻事件触发词表抽取泰语新闻事件触发词
  根据泰语新闻事件触发词表抽取泰语新闻事件触发词。由于泰语文本中不采用标点符号或是空格进行句子分割的使用特性与目前缺少对泰语文本句子切分的相关探讨,本文开展对泰语新闻句子进行泰语新闻事件触发词抽取。首先,根据文献[15]将泰语新闻句预处理,包含分词、标注词性;其次,提取出其中的名词、动词(文献[16]统计表明触发词基本为名词、动词,此举很大程度上缩小候选触发词集的范围);最后,构建候选泰语新闻事件触发词集。
  3.2 实验结果与略论
  本文从中泰双语新闻网[17]选取1000个泰语新闻句子作为实验数据。将其中750个泰语新闻句作为训练语料,250个泰语新闻句作为测试预料。对训练预料进行标注,参照CEC标注标准,标记出事件、触发词、事件类型。由于在泰语触发词提抽取措施探讨方面,目前未见相关探讨论文。因此,本文仅给出了我们措施的实验结果,实验结果如表4所示。
  实验结果表明,由于泰语分词、词性标注准确率对泰语触发词识别及抽取有着较大作用及泰语新闻标注语料过于单一的这些原因,导致根据抽取泰语触发词的准确率不高,但召回率比较理想。
  4 结语
  目前泰语新闻事件抽取探讨处于起步阶段,本文提出通过中文触发词表构建泰语触发词表,并通^泰语触发词表对泰语新闻文本中触发词进行抽取。实验表明,此措施对泰语触发词抽取是可行的。为了实现更好的抽取结果,提高泰语新闻触发词抽取的准确率,下一步的工作重心是扩大泰语标注语料,结合泰语语言特性构造特征向量,并结合机器学习的措施进行泰语新闻事件触发词抽取探讨。
  参考文献:
  [1]ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events[S]. National Institute of Standards and Technology, 2017.
  [2]Ahn D. The stages of event extraction [C]. Arte’06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events, 2017:1-8.
  [3]Hardy, H., Kanchakouskaya, V., Stzalkowski, T. Automatic Event Classification Using Surface Text Features[C]. AAAI 2017 Workshop on Event Extraction and Synthesis, Boston, MA (2017).
  [4]Ji H, Grishman R. Refining Event Extraction Through Cross-document Inference[C]. ACL 2017, Proceedings of the, Meeting of the Association for Computational Linguistics, June 15-20, 2017, Columbus, Ohio, Usa. 2017:254-262.
  [5]赵妍妍,王啸吟,秦兵,等.中文事件抽取中事件类别的自动识别[C].第三届学生计算语言学研究会.中国辽宁沈阳,2017.
  [6]侯立斌,李培峰,朱巧明.基于CRFs和跨事件的事件识别探讨[J].计算机工程,2017,38(24):191-195.
  [7]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2017, 05(12):208-212.
  [8]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2017, 05(12):208-212.
  [9]朱少华,李培峰,朱巧明.基于MLN的中文事件触发词推理措施[J].北京大学学报自然科学版,2017,52(1):89-96.
  [10]张金花.汉泰语对比浅析[J].群文天地,2017(2):98-98.
  [11]孙汉萍.汉、泰语的同异性比较[J].当代教育理论与实践, 1995(2):34-39.
  [12]付剑锋.基于事件的中文语料库标注措施[P].中国专利:201710126360.8,2017.
  [13]http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm.2017.
  [14]http://api.fanyi.baidu.com/api/trans/product/index.
  [15]Qin B, Zhao Y, Ding X, et al. Event Type Recognition Based on Trigger Expansion[J]. Tsinghua Science and Technology,泰语论文网站, 2017, 15(3):251-258.
  [16]赵世瑜,线岩团,郭剑毅,余正涛,洪玄贵,王红斌.基于条件随机场的泰语音节切分措施[J].计算机科学,2017,43(3):54-56,83.
  [17]付剑锋.面向事件的知识处理探讨[D].上海:上海大学, 2017.
  [18]http://th.hujiang.com/zt/zhngtaixinwen/.

免费论文题目: