【摘要】:本文主要的探讨内容为使用语音数据来探讨语言之间的距离关系。关于语言距离关系的定义,语言学家通过语言是否同源以及语言之间发音、字词、语法规则的对应关系来探讨语言之间的距离关系,最终生成语言谱系树来反映语言的从属关系,这属于定性探讨;经济学家将语言之间的距离定义为母语为一种语言的人学习其他语言的难易程度,这属于定量探讨。不论是在文化还是经济领域,语言距离关系的探讨都具有一定的运用价值。本文通过语种识别系统的输出--识别率来定义语言之间的距离关系,其中最关键的就是语种识别系统的搭建,它直接关系到语言之间距离关系的可靠程度。语种识别系统的搭建主要包括特征提取和模型训练两部分。在特征提取部分,本文先提取输入语音信号的56种声学特征以及它们的一阶、二阶差分值,然后使用39种统计函数来描述这些声学特征,最终生成6552维特征向量;在模型训练部分,本文采用区分性建模措施--Gentle AdaBoost算法。最后将语言距离矩阵映射到二维平面,生成语言关系图,直观的反映了语言之间的距离关系。本文的主要探讨成果包括:(1)本文使用语音数据来探讨语言之间的距离关系。通过语种识别系统的输出--识别率来定义语言之间的距离,并将本文得到的语言距离与之前语言学家和经济学家的探讨成果作比较,实验表明本文的距离度量措施与之前的探讨成果较为一致。(2)在语种识别系统的搭建中,采用一种全新的措施提取输入语音信号的特征,该措施与以往的措施最大的不同在于,一个输入语音样本对应一个特征向量,而不再是每一帧都对应一个特征向量。然后采用Gentle AdaBoost算法训练语言模型,在OGI数据库和NIST LRE15数据库上进行语种识别系统的性能测试,实验表明本文的语种识别系统性能要优于传统的基于GMM的语种识别系统;(3)将得到的语言距离矩阵映射到二维平面,生成语言关系图。在OGI数据库和NIST LRE15两个数据库上进行实验,验证了本文所使用的语言距离探讨措施在不同的数据库上的一致性。
【关键词】:语言距离关系 语种识别 Gentle AdaBoost算法 语言关系图
致谢5-6 摘要6-7 ABSTRACT7-13 1 绪论13-25 1.1 课题探讨背景及意义13-14 1.2 语言距离关系探讨的发展14-16 1.3 语种识别简介16-20 1.3.1 语音中具有语种区分性的特征简介17-20 1.4 语种识别发展近况20-23 1.4.1 基于音素特征的语种识别措施21-22 1.4.2 基于底层声学特征的语种识别措施22-23 1.5 本文的主要探讨内容以及创新点23 1.6 本文各章内容安排23-25 2 语种识别系统的原理25-45 2.1 引言25 2.2 特征提取25-34 2.2.1 线性预测倒谱系数LPCC26-27 2.2.2 梅尔频率倒谱系数MFCC27-31 2.2.3 移位差分倒谱系数SDC31-32 2.2.4 感知线性预测系数PLP32-34 2.3 声学模型介绍34-44 2.3.1 GMM模型34-36 2.3.2 SVM模型36-41 2.3.3 AdaBoost模型41-43 2.3.4 Gentle AdaBoost算法43-44 2.4 本章小结44-45 3 基于GENTLE ADABOOST的语种识别系统45-57 3.1 引言45 3.2 特征提取45-48 3.2.1 56个声学特征45-47 3.2.2 39个统计函数47-48 3.3 语种模型训练--GENTLEADABOOST算法48-49 3.4 实验数据库简介49-50 3.4.1 OGI-TS数据库49-50 3.4.2 NIST LRE15数据库50 3.5 性能评测标准50-51 3.6 在OGI-TS数据库上的实验结果与略论51-53 3.6.1 两种语言的实验结果与略论51-52 3.6.2 多种语言的实验结果与略论52-53 3.7 在NISTLRE15数据库上的实验结果与略论53-56 3.7.1 数据预处理53-54 3.7.2 实验结果与略论54-56 3.8 本章小结56-57 4 基于语种识别系统的语言距离关系探讨57-66 4.1 引言57 4.2 语言距离关系探讨措施简介57-61 4.2.1 基于相对熵的语言距离探讨57-58 4.2.2 基于元音系统的语言距离探讨58-59 4.2.3 基于Swadesh List的语言距离探讨59-61 4.3 基于语种识别系统的语言距离关系探讨61-65 4.3.1 与经济学家探讨结果的对比实验61-62 4.3.2 与语言学家探讨结果的对比实验62-63 4.3.3 语言关系图63-65 4.4 本章小结65-66 5 总结与展望66-68 ,西班牙语论文,西语毕业论文 |