基于HTK的日语连续语音识别系统的建立与探讨[日语论文]

资料分类免费日语论文 责任编辑:花花老师更新时间:2017-04-14
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

  摘 要:本文主要介绍了连续语音识别系统的构建过程,略论了连续语音识别系统构建的方式和采用音素构建连续语音识别声学模型的基本措施。阐述了利用隐马尔可夫工具包搭建的连续语音识别系统,给出了系统评估措施,系统使用日本标准JNAS数据库进行建模并使用北海道学院日本学生的发音进行实验,验证模型的有效性。
中国论文网
  关键词:连续语音识别;音素;HTK;HMM
  中图分类号:TN912.34
  1 语音识别系统的特征提取
  图1描述了语音识别系统的一般流程,图中上半部分代表建模过程,下半部分代表识别过程。完整的连续语音识别系统主要包含四个部分:预处理、特征提取、声学模型建立和识别语音信号[1]。声学模型建立主要运用HTK,HTK是专门用于建立和处理隐马尔科夫模型(Hiden Marcov Model, HMM)的工具包,当前在语音识别的运用和探讨领域被广泛使用[2]。识别引擎使用Julius开源平台,Julius是一种针对大词汇量连续语音识别相关探讨和开发的语音识别引擎[3]。它是基于N元语法(N-gram)和上下文相关的HMM的高性能、双通道解码器软件,可以进行对输入的连续语音进行实时解码。
  图1 语音识别系统框架结构
  预处理主要就是对语音信号进行基本操作,一般先使用公式(1)补偿语音信号中的高频部分,一般μ的取值范围在0.94到0.97之间。
  H(z)=1-μZ-1 (1)
  本系统使用传统的MFCC[4]作为语音特征提取的措施,并在提取MFCC特征的同时引入噪音鲁棒性算法,通过重新编译HTK中的HCopy命令进行噪音鲁棒性的语音特征提取,得到具有提取噪音鲁棒性的连续语音特征参数。
  2 语音识别系统的模型建立
  声学模型是语音识别系统最基本的组成单元和核心部分,使用HMM建立声学模型是当前多数语音识别系统采用的措施。在日语连续语音识别中,采用音素作为声学模型的建模单元。音素的数目不等于字母的数目,是从音质角度划分得出的最小语音单位。日语的标准音素有40个,加上连续语音中由于换气、思考等引起的暂停(sp)、连续语音开始静音段(SilB)和结束静音段(SilE),日语论文,最终建模的音素共计43个。与孤立词识别相比,在连续语音中,语音还会受到临近音的作用,这种作用形式被称为协同发音,因此在连续语音模型中还需要考虑上下文的相关音素产生的协同发音。这种上下文相关的音素模型通过考虑某个音素的前后几个音素来捕捉协同发音,提高系统的识别性能。考虑的相关音素数量越多,日语毕业论文,模型的复杂度就越高。常用的措施是只考虑目前音素左右相邻的音素,这种方式称为三元音素(triphone)模型。
  三音素模型的训练直接来自与上下文相关的单个音素,这种训练方式导致系统中的HMM模型个数以3次方的倍数增加,作用了系统处理效率和识别精度。为了避免这个问题,根据经验和实验得到的条件关于相同类型的三音素进行状态捆绑。该操作使用HEEd工具函数和决策树文件对所有的三音素模型进行多次训练得到。
  建模训练中首先利用连续语音特征生成单音素(Monophone)模型,本文使用的是HCompV和HERest创建训练单音素模型。为了解决协同发音,还需要创建三音素(Triphone)模型并进行模型重估。根据Net文件生成三音素模型。对与单音素和三音素模型的训练,还需要引入高斯混合数进行模型重估分类训练。该步骤的目的是训练出一个高效稳定的声学模型,该模型使识别的精度趋于平稳。
  分类的目的有两个,第一个是减少音素模型类别,使得在较少的数据集上训练得到的模型较为可靠;第二,减少了模型之间的重叠性、增加区分性。
  图2 音素训练分类过程
  创建原始的HMM模型,该模型由均值向量和协方差矩阵所组成,用5个状态、26维系数和状态转移矩阵表示。再依据音素表和音素特征文件生成各个音素级的HMM。最后根据所有的训练语音数据对音素级HMM进行训练形成单音素模型。为了增强HMM模型的抗干扰能力,加入了静音部分(针对音素sp)进行状态优化。该过程通过HTK中的HHEd来完成。针对多发音字,采用HVite工具函数结合语料进行重复多次的训练来完成。
  3 语音识别系统的数据源
  语音数据分为两个部分:训练库和测试库。训练语音数据库来自JNAS (Japanese news article sentences)数据库,训练数据库中的语音来源于报纸《每日新闻》中的内容,由153个男性朗读的大概2万3千多个句子。为了更好的检测模型的鲁棒性,测试库数据不仅有来自JNAS从训练库选取的数据,还有来自北海道学院日本学生朗读的与训练库数据完全无关的句子。
  4 系统实现
  图3为连续语音系统的结构。JNAS包括了语音的音频数据,语音罗马字标注和音素时间段的划分。首先把音频信息的罗马字转换成音素级的标注,其标注采用perl脚本工具和Hled共同完成。音素时间段的划分转换成以开始帧和结束帧的形式存放在文件中。通过perl小工具str2net生成上下文相关的三元音素网络。该网络与语音的MFCC特征对应进行联合训练得到系统声学模型,最后经过加入高斯混合数并进行状态分类,得到约有2017个状态的HMM模型。
  图3 连续语音识别系统结构
  5 结果及评价
  在连续语音中,协同发音会造成相邻音素的发音发生变化,这种变化在识别会引起相应的错误(删除错误,插入错误和替代错误),这些错误导致了连续语音识别技术性能的大幅下降。
  下述两个公式为评价规则:
  (2)
  (3)
  N代表一个句子中的词汇总数,S代表错误识别的单词,即把正确的识别成错误的。D代表没有作为一个词语选择出来的单词,即:识别正确但没有作为一个词来评价。I代表本不该是一个词汇的却被识别成一个词,例如:噪音或者无音部分被识别成一个词语。RA表示整个连续语音的识别性能。RC表示在整个连续语音的词汇集合中关于单词的正确识别比例。
  表1 该系统下的识别精度[%]
  参考文献:
  [1]赵力.语音信号处理[M].机械工业出版社,2017.
  [2]张杰,黄志同,王晓兰.语音识别中隐马尔可夫模型状态数的选取准则及探讨[J].计算机工程与运用,2017(01).
  [3]I.Katunobu,Y.Mikio,T.Kazuya,M.Tatsuo,K.Tetsunori,S.Kiyohiro,andI.Shuichi,JNAS:Japanesespeechcorpusforlargevocabularycontinuousspeechrecognitionresearch,JournaloftheAcousticalSocietyofJapan(E),vol.120,no.3,119-206,1999.
  [4]曹洁,余丽珍.基于MFCC和运动强度聚类初始化的多说话人识别[J].计算机运用探讨,2017(09).
  作者单位:长春理工学院计算机科学技术大学,长春 130022

免费论文题目: