自动语音略论技术在俄语发音学习中的运用
【摘要】文章针对现在我国俄语教学中发音教学的不足,提出使用自动语音略论技术辅助俄语发音学习,设计了一个具有示范、评分反馈功能的俄语单词发音学习辅助系统。文章详细的描述了系统功能、基本框架,给出了系统实现中的关键技术。最后,使用VC 6.0实现了一个演示系统,并进行了简单测试。 【关键词】自动语音略论;俄语发音;MFCC;计算机辅助教学 外语论文网—03 引言 随着国际交流的不断发展,人们已经越来越多地意识到外语学习和使用的重要性。非母语语言的教学已经成为当前教育教学领域的一个热点。俄语作为世界上最丰富的语言之一,由于历史及地理原因在我国受到的关注程度远远超越了除英语以外的其他语种。 语言作为一个交流工具,能够正确标准的发音是现代语言教学与学习的一个重要目标。在发音学习中,有效的反馈是必不可少的一个重要环节。在传统的课堂教学中教师是一个有效的反馈源,然而由于课堂时间和教师资源都是有限的,不能保证每个学生的发音都能得到有效的反馈。另外,语言的发音学习是需要反复训练的,这也是传统课堂教学方式所不能提供的。在发音习时,学生需要一个“教师”随时随地的对自己的发音进行有效的反馈和指导。 计算机辅助语言学习(CALL,Computer-Aided Language Learning)技术[1]的兴起和发展为语言发音教学提供了新的途径。CALL是指在一定的语言学和心理学的理论基础上,利用计算机和信息技术辅助外语学习。结合自动语音略论技术的CALL可以用来进行辅助发音学习,学习者可以随时随地的得到即时的有效反馈,根据反馈信息及时调整改进自己的发音,有效的弥补了传统课堂语言教学中发音反馈的不足。 俄语和汉语属于不同的语系,它们发音习惯有着很大的不同。目前我国对基于语音处理技术的发音学习的探讨主要集中在英语教学[2][3]和对外汉语教学[4][5]中,关于俄语发音的探讨尚未见于文献。本文采用自动语音略论技术,设计了一个具有示范、评分功能的俄语单词发音学习系统。 一 系统介绍 1 基本功能 本文设计的基于自动语音略论技术的俄语单词发音辅助学习系统包括了示范和评分反馈两个主要功能: (1)示范。系统显示当前单词、音标、中文意思及标准发音,学习者可以反复的收听系统中存储单词的标准发音; (2)评分反馈。学习者可以跟读,将自己的发音和系统的中标准发音比较,系统自动给出评分反馈,并给出标准发音和学习者发音的波谱图对比。 2 系统框架 根据系统的基本功能,系统的基本框架设计如图1所示: 系统预先在数据库中存储单词的标准发音,并提取其特征,本文使用MFCC(Mel频率倒谱系数)作为语音特征。系统获取学习者语音后,首先将其和数据库中标准语音在时间上对齐,然后提取特征并计算和数据库中标准发音的相似度,最后将相似度映射为学习者较易理解和接受的等级评分。 3 与其他系统的不同 本文设计的系统和其他文献中提到的基于语音略论技术的发音学习系统[2][3][4][7]的不同主要体现在以下几个方面: (1)本系统使用的技术不是语音识别技术,并不识别学习者发音的含义,而是采用语音略论技术,略论判断学习者发音和系统存储的标准语音的相似度给出评分反馈; (2)本系统的设计旨在指导学习者学习俄语单词的发音,是属于语音略论技术中的孤立词略论,孤立词略论技术相关于整句的略论的技术较为成熟,这增加了系统的可行性; (3)本系统数据库使用标准语音数据库,并没有进行语料库的训练,直接根据相似度评价打分,降低了系统的复杂性,这是因为本系统仅仅面向于俄语单词发音的辅助学习。 二 系统关键技术 1 端点检测 端点检测是指在有背景音的情况下,找出实际语音的开始点和结束点,是语音略论领域的一个基本问题。在孤立词的略论识别中,尤为重要,正确的端点检测不仅是正确语音略论的必要前提,同时也能提高系统的运行速度。 本系统旨在指导学习者学习俄语单词发音,因此属于孤立词语音略论。这种情况下,单词的起始和结束位置较为明显,因此本文使用较为简单的音量法和过零率检测措施进行端点的检测。音量检测为主,过零率检测为辅,过零率的引入能有效的消除对气音的误判。 2 特征选取 特征的选择和提取是语音略论系统的一个重要部分,特征选取的合适与否将直接作用到整个系统的性能。在语音略论辅助俄语发音系统中,语音特征的选取还体现着评分的意图和侧重,这是因为所选取的特征将被用来比较作为评分依据。 在语音略论领域,常用的特征主要有短时帧平均能量、幅度、短时帧过零率,LPCC(线性预测倒谱系数)和MFCC(Mel到谱系数)等。其中MFCC考虑了人耳的听觉特性,具有良好的识别特性和抗噪特性,能较好的体现语音的内容,因而本文选择其作为语音特征。MFCC参数的提取流程过程如图2所示: 3 MFCC计算流程 首先对系统捕获的原始语音信号S(n)进行预加重、分帧、加窗等预处理,得到每个语音帧的时域信号X(n)。然后对X(n)实施DFT(离散傅里叶变换)得到线性频谱X(k)。接着计算X(k)的能量谱,使用一组Mel尺度的三角形滤波器在频域对能量谱进行带通滤波。求取每个滤波器组输出的对数能量S(m),对S(m)进行DCT(离散余弦变换)最终得到MFCC参数。 4 评分算法(相似度度量) 发音水平的衡量评分措施是俄语发音学习系统中使用到的另一项关键技术,不合理的评分算法会对发音给出错误的评分,对学习者造成误导。发音水平的计算机评分结果要可靠,要求尽可能的和现实专家(老师)对发音的评分保持一致。 现有评估发音质量的主要措施有:段分类评分、段时长评分等、HMM对数似然度评分和对数后验概率评分。它们的原理都是以标准发音为模板,通过计算学习者发音和这些模板之间相似度进行的。本文中系统是对单词发音的孤立词语音略论,因此段分类评分和段时长评分不适用本系统。以往的探讨结果[3][8]表明,对数后验概率评分具有最好的健壮性,因此本文选取其作为俄语发音学习系统的评分算法。 下面对后验概率评分算法进行简单的介绍【9】。 关于音素 ,给出与其相关的第i段语音的每一帧 ,计算 基于帧的后验概率得: 其中, 为给定音素q下观测到的 的概率分布,在分母上, 为音素q的先验概率,M为当前语料中与文本无关的音素总数。 音素 在第i段语音每一帧下的后验概率取对数,然后逐帧累加,就可以得到音素 在第i段语音下的对数后验概率得分: 其中 表示音素 所对应的第i段语音的起始时间。整个单词的后验概率打分,定义为单词或句子中所有音素段的对数后验概率按音素长度归一化后的平均值,为: 其中,N为单词的总音素数, 为第i个音素持续的帧数。 对数后验概率评分具有很好健壮性,受学习者个体说话特征或声音通道的变化作用较小,它能更好的反映学习者的发音与标准发音之间相似度,因此,它是目前使用最普遍的一种发音测度措施。 使用对数后验概率评分得到的分数不够直观,不便于学习者理解和接受,因此需要将该得分映射为一个概略的得分。系统将对数后验概率得分映射到A、B、C、D、E五个等级。为了鼓励学习者学习,评分最高的(和标准语音相似度)的35%都映射为等级A(非常标准),同时为了督促学习者更好的掌握标准语音,评分最低后35%都被映射为等级E(非常不标准,建议学习重读)。当用户发音得分等级为D或E时,提示用户发音不合格,建议跟随标准发音重新学习。
,俄语论文,俄语论文 |