【摘要】:越南与中国一衣带水,两国人民之间的交往历史悠久,语言沟通在双方人民友好往来与相处、相互学习方面起到了十分重要的影响。依存树语料对机器翻译、信息检索等上层运用能够启到有力的支撑影响。基于统计机器学习措施进行依存句法略论是当前依存句法略论的主流,训练语料的多少和质量直接作用了解析依存关系的效果。近年来,关于中文、英语等大语种的依存句法略论都取得了很好的效果。但是对于越南语的依存句法略论方面的探讨还很少。本文分别对构建越南语依存树库、越南语依存关系解析和越南语依存树库错误自动检测与略论等三个方面做了深入的探讨:(1)借助汉-越双语词对齐语料构建越南语依存树库的措施。由于对越南语的探讨工作相对比较少,因此还没有建立规模相对较大的依存树库。相关于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法略论要困难的多,所以本文提出了一种借助汉—越双语词对齐语料构建越南语依存树库的措施。首先对汉语—越南语句子对进行词对齐处理,然后对汉语句子进行依存句法略论。最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉—越双语词对齐关系映射到越南语句子中,从而生成越南语的依存树库。实验表明,该措施简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间。实验结果表明,该措施相比采用机器学习的措施准确率明显提高。(2)基于MST算法和改进的Nivre算法相结合越南语依存关系解析的措施。在这里我们提出一种基于结合最大生成树(MST)算法和改进的Nivre算法构建越南语依存树库的措施。该措施借助于协同学习的特点,首先构建少量样本,然后利用少量的有标记样本构建一个具有两个充分冗余视图的弱学习器,对大量的未标记样本互为标记,选取高信任样本重新参与学习,构建依存略论器。使用人工标记的越南语依存树中的10000句语料作十折交叉测试,结合模型的依存关系获得了76.33%的正确率。实验结果表明,本章提出的措施能够利用无标记语料有效提升依存略论的准确率。(3)基于规则的越南语依存树库错误的自动检测与略论。尝试将依存树转化为短语结构树,并基于规则的措施自动检测出依存树库中存在的错误。该措施运用于句法略论器训练得到并且经过人工两遍校正的依存树库,从30000个句法树中发现1216处错误,且正确率为100%。进一步,所有错误可以分为三个方面:分词错误、词性与句法角色不符、句法角色错误。该措施可以有效的提高依存树库的质量,并且适用于各种类型的依存树库。(4)在得到30000句高质量的依存树语料之后,在于传统机器学习措施的基础之上融入越南语的语言特征构建依存句法略论器来对越南语句子进行依存关系解析,并将解析得到依存树进行图形化处理。在此理论基础上,实现了基于MST算法和改进的Nivre算法相结合越南语依存关系解析的原型系统。
【关键词】:依存树库 依存关系解析 依存句法解析器 最大生成树(MST)算法 Nivre算法
摘要5-7 Abstract7-12 第一章 绪论12-18 1.1 探讨背景及意义12-13 1.2 国内外探讨近况13-16 1.3 论文的探讨内容16-17 1.4 论文的组织17-18 第二章 借助汉-越双语词对齐语料构建越南语依存树库18-28 2.1 引言18 2.2 汉越两种语言之间的异同18-19 2.3 汉语—越南语词对齐19-20 2.4 汉语的依存略论20-22 2.5 汉语到越南语句法树的映射22-24 2.6 实验及结果略论24-26 2.6.1 实验数据24 2.6.2 评价措施24 2.6.3 结果略论24-26 2.7 本章小结26-28 第三章 MST算法和改进Nivre算法相结合越南语依存关系解析28-36 3.1 引言28 3.2 基于协同训练的越南语依存树库建设28-32 3.2.1 依存关系标记28-29 3.2.2 特征选取29-30 3.2.3 基于协同训练的越南语依存树库建模30-32 3.2.3.1 基于改进的Nivre算法的依存略论措施30-31 3.2.3.2 基于MST算法的依存略论措施31 3.2.3.3 融合MST算法和改进的Nivre算法的协同训练31-32 3.3 实验结果及略论32-34 3.4 小结34-36 第四章 越南语依存树库错误的自动检测与略论36-48 4.1 引言36-37 4.2 短语功能的可推导性37 4.3 依存句法体系37-38 4.4 短语功能推导错误检测38-40 4.4.1 推导规则集的建立38-39 4.4.2 错误自动检测39-40 4.5 实验及略论40-46 4.5.1 实验结果40 4.5.2 分词错误40-41 4.5.2.1 交叉歧义41 4.3.2.2 姓名处理不当41 4.5.3 词性与句法角色标记不符41-44 4.5.3.1 时间词与句法角色不符42 4.5.3.2 动词与句法角色不符42-43 4.5.3.3 形容词与句法角色不符43 4.5.3.4 介词与句法角色不符43 4.5.3.5 成语、简称、习用语处理不当43-44 4.5.4 词性正确,错标句法角色44-46 4.5.4.1 动宾结构错标为介宾结构44 4.5.4.2 数词修饰动词错标为数字44-45 4.5.4.3 连词句法角色错标为状语45 4.5.4.4 数量补语(QUC)错标45 4.5.4.5 状中结构与述宾结构混淆45 4.5.4.6 小结45-46 4.6 本章小结46-48 第五章 结合MST算法和改进的Nivre算法的原型系统48-50 5.1 系统开发背景48 5.2 系统开发所需资源48 5.2.1 基础开源工具48 5.2.2 语料48 5.3 系统48-49 5.4 本章小结49-50 第六章 总结和展望50-52 6.1 总结50-51 6.2 展望51-52 致谢52-54 参考文献54-60 附录A 攻读期间的论文60-62 附录B 攻读期间参与项目62-64 附录C 申请软件的作品权64-66 附录D 申请发明专利66 ,越语专业论文,越语论文 |