【摘要】:纳西语依存句法略论是纳西语信息化处理中最重要的基础工作之一,其目的是根据依存语法自动推导出纳西句子的语法结构。句法略论的结果会对纳西语机器翻译等运用产生直接的作用。现今的纳西语依存树库资源相对不足,人工标准困难,因此,本文首先采用两种不同的方式分别构建纳西语依存树库,再根据生成的树库进行依存句法略论器的构建工作:
(1)由于纳西语依存句法略论的语料稀缺、标注困难,相比形态丰富、语料成熟的汉语而言,对其句法略论要困难得多,所以提出从汉-纳语言对齐关系入手,先对汉语-纳西语句子对进行词对齐的处理;再对汉语句子进行依存句法略论;最后结合纳西语的特点和相应的规则把生成的汉语依存树通过汉-纳语言对齐关系对映射到纳西句子上,进而生成纳西语的依存句法略论树。实验结果表明,提出措施可以简化人工收集和标注纳西树库过程,节省了人力和树库构建的时间。
(2)结合协同训练算法的特点,首先,人工标记少量样本;其次,利用少量的有标记样本构建一个具有两个充分冗余视图的弱学习器;最后,并通过大量的未标记样本来使学习器逐步完善,同时利用学习器构建了同样为15000个纳西句子的纳西语依存树库。协同训练并不需要以汉语作为媒介,仅仅需要少量的有标记纳西语料和大量的无标记纳西语料即可,避免了由于纳西语语料不足给实验结果带来的负面作用。
(3)有了树库之后,接下来的工作就是构建纳西语依存句法略论器。首先,采用SVM原理去构建根查找器,利用根查找器找到根结点,并利用根节点将句子划分为子句;其次,利用决策式算法对子句进行依存略论,这种做法有效的减少了句子的复杂度,从而避免了在句法略论中由于句子复杂度较高而引起的比较常见的错误;最后,通过对传统Nivre算法的改进,使实验结果的准确率得到了提高。
【关键词】:纳西语依存略论 语言对齐关系 协同训练 纳西语依存树库 支持向量机
摘要4-5 Abstract5-10 第一章 绪论10-16 §1.1 课题背景10-11 §1.2 国内外探讨近况11-14 §1.2.1 英语依存略论11-12 §1.2.2 汉语依存略论12 §1.2.3 纳西语的探讨近况12-14 §1.3 课题主要探讨内容14-15 §1.4 论文结构15-16 第二章 依存语法和依存句法略论16-22 §2.1 引言16 §2.2 依存语法16-19 §2.2.1 依存语法理论16-17 §2.2.2 依存结构的表示17-19 §2.3 依存句法略论19-20 §2.4 本章小结20-22 第三章 基于汉-纳语言对齐关系的纳西语依存树库的构建措施22-30 §3.1 引言22 §3.2 基于汉-纳双语的纳西语依存树库的构建过程22-27 §3.2.1 汉语-纳西语词对齐22-23 §3.2.2 汉语的依存略论23-24 §3.2.3 汉语到纳西语语句法树的映射措施24-27 §3.3 实验结果及略论27-28 §3.4 本章小结28-30 第四章 基于协同训练的纳西语依存树库建设30-44 §4.1 引言30 §4.2 协同训练算法简介30-34 §4.3 基于半监督协同训练法的纳西语依存树库建设34-41 §4.3.1 起始语料34-36 §4.3.2 特征的选取36-37 §4.3.3 基于协同训练法的纳西语依存树库建设37-41 §4.4 实验结果及略论41-42 §4.4.1 实验数据41 §4.4.2 实验结果41-42 §4.5 本章小结42-44 第五章 基于SVM和决策式算法的纳西语依存句法略论器44-58 §5.1 引言44 §5.2 支持向量机(SVM)的基本原理44-46 §5.3 基于SVM和决策式的纳西语依存略论46-54 §5.3.1 预处理阶段46-50 §5.3.2 纳西语子句的依存略论50-54 §5.4 实验结果及略论54-57 §5.4.1 实验数据54-55 §5.4.2 实验结果55-57 §5.5 本章小结57-58 第六章 总结与展望58-60 致谢60-62 参考文献62-68 附录A 攻读学位期间的论文68-69 附录B 攻读学位期间的软件作品权69-70 附录C 攻读期间论文项目基金及参与项目70 ,西班牙语论文,西语毕业论文 |