본 연구에서는 화자 인식에서 화자의 음향 특징을 정규화하기 위하여 히스토그램 등화 기법 (histogram equalization)을 사용하며, 여기에서 인식 성능과 속도를 향상시키기 위하여 배경 화자의 대...
본 연구에서는 화자 인식에서 화자의 음향 특징을 정규화하기 위하여 히스토그램 등화 기법 (histogram equalization)을 사용하며, 여기에서 인식 성능과 속도를 향상시키기 위하여 배경 화자의 대표 특징을 사용하는 방법을 제안한다. 히스토그램 등화 기법은 입력 발성의 길이에 따라 화자 인식 성능이 영향을 받는다. 이를 극복하기 위해 긴 발성을 적절한 크기로 나누어 변환을 시도하는 연구가 진행되었으나, 발성 길이가 짧으면 화자 인식 성능이 급격히 하락하는 문제가 있었다. 이런 문제를 개선하고자 제안한 방법은 배경 화자 집합을 사용하였으나, 방대한 크기의 배경 화자 집합은 정규화 속도를 느리게 하는 문제가 있었다. 정규화 속도를 빠르게 하기 위해, 제안한 방법은 방대한 배경 화자 집합의 전체 분포를 잘 나타내는 특징들로 이루어진 부분 집합을 만들어 사용한다. 부분 집합을 만드는 방법으로 fuzzy C-means, K-means, greedy selection 등을 사용하였다. 이 방법들을 이용하여 배경 화자 집합의 크기를 줄이고, 축소된 배경 화자 집합을 이용하여 입력 발성 특징의 서열을 새롭게 추정하였다. 서열 (rank)은 집합 안에서 자신보다 크기가 작거나 같은 원소의 수를 의미한다. 입력 발성의 서열은 배경 화자 데이터와 입력 발성에 대하여 각각 측정하였으며, 두 서열의 합으로 새로운 서열을 정의하였다. 새로운 서열은 누적 분포 함수 (cumulative distribution function)를 추정하는데 사용된다. 이 방법을 통해 짧은 길이를 갖는 발성 특징에 대한 기존의 히스토그램 등화 기법의 단점을 보완하여 화자 인식 성능을 높이고자 하였다.
제안한 방법으로 정규화된 음향 특징은 가우시안 혼합 모델 (Gaussian mixture model)을 사용한 최소 오류 베이지안 분류기(minimum error Bayesian classifier)의 입력으로 사용되었다. 배경 화자 모델에 제안한 방법을 사용하여 정규화된 입력 특징으로 maximum a posteriori (MAP) 적응을 수행하여 추출한 가우시안 평균 수퍼벡터 (Gaussian mean supervector)를 서포트 벡터 머신 (support vector machine) 분류기의 입력 벡터로 사용하였다.
제안한 방법을 평가하기 위해, YOHO와 한국어 중가 마이크 화자인식용 음성 DB를 사용하였다. DB의 테스트 데이터에 VoIP 코덱을 시뮬레이션하여 채널 효과에 따른 화자 인식 성능 하락을 확인하고, 제안한 방법과 일반적인 특징 정규화 방법의 화자 식별 성능을 비교하였다. YOHO DB를 기준으로, 제안한 방법은 기존의 특징 정규화 방법과 비교하여 클린 환경은 평균 33.7%의 상대 오류 감소율을 보였고, OPUS 환경은 평균 24.5%의 상대 오류 감소율을 보였다. 또한, 제안한 방법은 i-vector를 기반으로 하는 PLDA 시스템에 i-vector 정규화 방법으로 사용되었으며, 기존의 서열 정규화 방법과 비교하였다. 제안한 방법은 길이 정규화 방법과 같이 사용할 수 있으며 같이 사용하는 경우 더 많은 성능 개선을 보였다. I-vector 기반의 PLDA 시스템 평가에서는 NIST 2008 SRE DB를 사용하였다. 제안한 방법은 동일 오류율 기준으로 baseline보다 평균 10.4%의 상대 오류 감소율 보였고, 서열 정규화보다 평균 4.7%의 상대 오류 감소율을 보였다. 또, 제안한 방법은 서열 정규화의 정규화 속도를 상대적으로 92.2% 개선하였다.
In this thesis, we apply histogram equalization to normalize the features for speaker recognition, and we propose a novel approach for histogram equalization using a reduced background speaker feature set to improve the recognition rate and processing...
In this thesis, we apply histogram equalization to normalize the features for speaker recognition, and we propose a novel approach for histogram equalization using a reduced background speaker feature set to improve the recognition rate and processing speed. The length of the input utterances to perform normalization using histogram equalization affects the performance of speaker recognition. To overcome the problem, the utterances are divided into windows of a fixed size. However, histogram equalization gives low performance in speaker recognition when the length of an utterance is very short. To improve the performance of histogram equalization, we use a background set to estimate robust CDFs. Then the processing time of histogram equalization is increased much because the size of the background set is huge. Therefore, we make a reduced background set which represents the distribution of the large background set. To make the reduced background set, we use various clustering methods such as fuzzy C-means and K-means or use a selection method such as greedy selection. The ranks of input features are estimated in ascending order from the reduced background set and the input sequence, respectively. A new rank can be obtained by the sum of the two ranks. The new ranks are used for estimating CDFs. This approach compensates the weakness of histogram equalization with short utterances and improves the speaker recognition accuracies.
The proposed method is applied to acoustic features for speaker identification systems using Gaussian mixture models and using a support vector machine. The support vector machine has a GMM supervector linear kernel function. The normalized MFCC features are used to extract GMM supervectors using MAP adaptation.
We use YOHO corpus and Korean speech for speaker recognition using a middle valued microphone corpus collected and distributed by ETRI to evaluate these systems. The channel effects for the test utterances are simulated by using various VoIP codecs. Conventional feature normalization methods and the proposed method normalize these channel effects and improve the performances of speaker identification systems. We compare the performance of the proposed method with the conventional feature normalization methods. The proposed method reduced the error rate by 33.7% relatively compared to the conventional feature normalization in clean environment and reduced the error rate by 24.5% relatively in OPUS environment.
The proposed method is also used as an i-vector normalization method for i-vector based PLDA system for speaker verification and is compared to Gaussianized rank normalization. Our proposed method can be combined with length normalization methods such as eigen factor radial and spherical nuisance normalization, and then the performance is improved more. We use NIST 2008 speaker recognition evaluation corpus in det 6 and det 7 conditions of short2-short3 condition for the evaluation. Our proposed method reduces the equal error rate by 10.4% relatively compared to the baseline system and reduces the equal error rate by 4.7% relatively compared to rank normalization. The proposed method also reduces the normalization processing time by 92.2% relatively.
,韩语论文网站,韩语论文范文 |