基于SVMTooL的越南语词性标注[越南语论文]

资料分类免费越南语论文 责任编辑:Nguyễn Thị更新时间:2017-06-17
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

  摘要: 当前已有很多种措施用于词性标注词性标注的本质是序列标注问题。它是信息抽取、信息检索、句法略论、语义角色标注等众多中文自然语言处理任务的基础。本文将基于SVM的SVMTooL运用到越南语词性标注上。标注集按照越南语的词性和符号共分为28种标注,训练语料包含25万词,实现了的越南语词性注,取得了较好的效果,准确率达到96.01%。
外语论文网 www.waiyulw.com
  Abstract: There are multiple methods for part of speech tagging. The essence of part-of-speech tagging is sequence labeling. It is the basis of information extraction, information retrieval, syntactic analysis, semantic role labeling and so on in natural language processing tasks. In this paper, the SVMTooL based on SVM is applied to Vietnamese part-of-speech tagging. The tagging set according to the Vietnamese part of speech and the symbol are divided into 28 kinds of labeling, and the training corpus contains 250000 words. It implements the Vietnamese part of speech tagging, and good results have been achieved, with 96.01% accuracy.
  关键词: 词性标注;越南语;自然语言处理;SVMTooL
  Key words: part-of-speech tagging;Vietnamese;natural language processing;SVMTooL
  中图分类号:TP391.1 文献标识码:A 文章编号:1006-4311(2017)20-0159-03
  0 引言
  词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言处理中一项非常重要的基础性工作[1]。词性标注工作作为老挝语命名实体识别、依存句法略论、词义消歧、语义角色标注等探讨工作的重要基础,并且运用于如文本索引、文本分类、语料库加工等众多领域。越南语是一门重要的东方语言,由于其书写形式及本身的词汇构成与英语及汉语呈现相似的一面又具有自己的特点,它采用的是扩展的拉丁符号;在组成上,越南语单音节词居多;在形态上,语法意义是通过语法词等词来实现。以上特点使得越南语与西方语言与东方语言既有相似之处,又有区别。越南语是一种孤立语,动词无变化,词既没有文法上的性别跟数的形式,也没有文法上格的变化,形容词也不需要跟被修饰的名词保持文法上的性、数、格上的一致。它以不变的根词的词序和虚词来表示语法关系。句子的主语在谓语之前,宾语和补语在动词之后,名词修饰语一般在名词之后,但数词、量词修饰语在名词之前。词序或虚词改变后,语义也随之而变。
  目前,国内外对中文文本词性标注、欧美国家多种语言的词性标注技术的探讨比较成熟[2][3],而对东南亚国家语言,只有越南河内国家大学KHong Phtrong进行过越南语文本处理相关探讨,他们使用的措施是最大熵,准确率为95%左右,还有越南国内VLSP课题组进行了相关探讨,其词性标注准确率为93%。越南语词性标注面临的难点主要是它属于意合型语言,缺乏词形态变化,词的类别不能像印欧语那样,直接从词的形态变化上来判别。
  当前,很多基于统计的措施用于词性标注,如隐马尔科夫模型(HMM)[4],最大熵(ME),条件随机场(CRF)[5]和支持向量机[6]。其中基于SVM的SVMTool[7]符合自然语言处理技术的要求,具有简单、灵活、高效等特点。词性标注可以看作是多分类问题。
  本文将简单介绍SVM原理、如何将二分类器运用于多分类问题中及如何将SVMTool运用于越南语词性标注问题。
  4 实验结果
  在实验中,采用了本文定义的30种词类组成的标注集,语料是从越南语相关网站上获取的包含约30万词,内容涉及政治、经济、文化、地理等题材。在词典数量不变的条件下,分别对5万、10万…30万词的语料进行开放和封闭测试。
  4.1 不同规模训练语料实验
  在进行封闭测试时,首先分别以5万、10万…25万词的语料进行训练,建立模型,然后从用来训练的语料中取5万词的语料重新进行词性标注,求出每一个句子的最佳词性标注序列,即完成了封闭测试。
  在进行开放测试时,先从30万的语料库中抽出含5万词的句子,这些句子不参与训练,用于后面的测试。同样的也是分别以5万、10万…25万词的语料进行训练,并对测试集进行词性标注,从而完成了开放测试。
  封闭测试和开放测试准确率与训练语料规模的关系如表2所示。
  4.2 不同词性标注措施的比较
  本文进行了与最大熵模型的比较。采用的语料是是含25万词的越南语词性标注语料作为训练语料,对含5万词的越南语文本进行标注,实验结果如表3所示。
  可以看出最大熵效果的词性标注准确率较低,最大熵的措施是单独对每个词单独进行分类的,无法利用标记之间的联系,而本文的措施可以建立标记之间的关联性。实验表明了本文措施效果较好,证明了本文措施的可行性。
  5 结论   根据上面介绍的措施,本文已经实现了借助SVMTool完成的越南语词性的自动标注,它具有下一步可以考虑加入一些越南语的词语特征来提高越南语词性标注的准确率,还可以进一步对SVMTool参数进行调整,来提升准确率。分别以5万、10万…25万词级的语料库作为训练语料,进行了开放和封闭测试,扩大训练语料,标注准确率会提高,标注准确率也有所提高,本文的措施和最大熵词性标注措施进行了比较,由于标注过程中考虑标记之间的联系,本文实现的措施标注准确率较高,达到96.01%。但是与运用系统的要求还有一定的差距。为了提高标注系统的正确率,需要进一步探讨如何在标注过程中融入越南语的词语特征。
  参考文献:
  [1]洪铭材,张阔,等.基于条件随机场(CRFs)的中文词性标注措施[J].计算机科学,2017,33(10):148-155.
  [2]梁以敏,黄德根.基于完全二阶隐马尔可夫模型的词性标注[J].计算机工程,2017(10).
  [3]Scott M. Thede, Mary P Harper. A second-order Hidden Markov Model forpart-of-speech tagging[C]// Proceedings of the Association for Computational Linguistics(ACL),1999:20-26.
  [4]T. Brants, “TnT-A statistical part-of-speech tagger”, In Proc. Of the 6thApplied NLP Conference, pp. 224-231, 2000.
  [5]J. Lafferty,越语论文范文, A. McCallum, and F. C. Pereira, “Conditional random fields: Probabilistic models for segmenting and labeling sequence data,” In Proc. of the 18th ICML 01, 282-289. 2001.
  [6]Jesús Giménez and Lluís Márquez. SVMTool: A general POS tagger generator based on Support Vector Machines. Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'04). Lisbon, Portugal. 2004.
  [7]Jesus Gimenez;Luis Marquez SVMTool:A general pos tagger generator based on support vector machines 2004.
  [8]Bruno Feres de Souza and André Ponce de Leon F.de Carvalho, Gene selection based on multi-class support vector machines and genetic algorithms, Genetics and Molecular Research 4 (3): 599-607 (2017)■2017.
  [9]郑勇涛,刘玉树.支持向量机解决多分类问题探讨[J].计算机工程与运用,2017:190-192.
  [10]陈坚忠.越汉双语语料库构造与探讨究[J].2017 年清华大学学位论文,越语论文题目,2017.
  [11]林丽.基于新闻语料库的越南语框架语义标注探讨[J].中文信息学报,2017,27(6):201-208.
  [12]阮华刚.基于 IBM 模型的汉―越双语词语对齐探讨[D]. 昆明理工大学,2017.

免费论文题目: