유비쿼터스 환경에서 음성신호는 통신망을 통한 채널왜곡 및 주위환경의 잡음에 쉽게 노출된다. 이로인해 음성인식의 성능이 저하되므로 실생활에 유용하게 서비스 되지 못하고 있다. 이처...
유비쿼터스 환경에서 음성신호는 통신망을 통한 채널왜곡 및 주위환경의 잡음에 쉽게 노출된다. 이로인해 음성인식의 성능이 저하되므로 실생활에 유용하게 서비스 되지 못하고 있다. 이처럼 실생활에서의 잡음은 항상 존재하기 때문에 이를 제거하는 것은 쉽지 않은 문제이다. 이런 잡음문제를 해결하기 위해 잡음에 강한 파라미터들과 모델 적응방법이 제시되어 왔으나 잡음처리는 여전히 해결이 어려운 문제이며 이를 해결하기 위한 새로운 시도들이 필요하다.
본 논문에서는 새로운 시도의 하나로 관측신뢰도 기반 변형된 GMM 학습방법을 제시한다. 관측신뢰도는 획득된 신호가 얼마나 깨끗한지를 정량화하는 척도인데, 예를 들어 SNR과 같은 함수로 표현된다. 변형된 GMM 학습방법을 개발하기 위하여 관측신뢰도 가중 목적 최적화 함수를 설정하였으며, EM 알고리즘을 이용한 학습식을 유도하였다. 또 이 새로운 방법을 화자인식 문제에 적용하여 검증하였다.
변형된 GMM 학습을 이용한 화자인식은 멤버십 함수를 이용하여 SNR값에 따른 관측신뢰도 값을 구한 후, 이를 입력 음성의 확률 계산시 가중값으로 반영하여 실험했다. 문맥독립 화자인식 실험을 위해서는 VidTIMIT 데이타베이스를 이용하였고, 문맥종속 화자인식 실험을 위해서는 ETRI에서 만든 한국어 화자인식용 휴대폰 음성 DB를 사용하여 SNR 기반의 관측신뢰도를 이용한 화자인식률을 비교하였다.
실험결과 SNR 기반의 관측신뢰도를 이용한 변형된 GMM 학습의 화자인식률이 기존의 GMM 학습의 화자인식률보다 더 우수했다. 또 변형된 GMM 학습을 기반으로 한 멤버십 함수의 파라미터 값을 최적화한 PSO 방법이 가장 우수한 인식 성능을 보여주었다.
하지만 SNR을 관측신뢰도의 독립변수로 사용하는데 어려운 점이 있다. 신호로부터 실제 SNR을 정확하게 측정하는 것이 쉽지 않으며 부가적인 계산량도 많이 요구되는 것이다. 또한 동적 부가잡음이 인가된 경우 SNR 측정이 더욱 어려워져 오차도 증가한다.
이 문제를 해결하려면 SNR을 사용하지 않는 방법이 필요하다. 본 논문은 화자 모델들의 확률값 분포로부터 확실성 함수를 결정하고 이 값들로부터 관측신뢰도를 구하는 스코어 기반 관측신뢰도를 이용하는 방법을 제안했다.
제안한 방법의 성능을 확인하기 위해 문맥종속 화자인식 실험을 했다. 그 결과, SNR 기반 관측신뢰도를 이용한 화자인식률이 스코어 기반 관측신뢰도를 이용한 화자인식률보다 약간 더 우수함을 확인했다.
이와같이 SNR 기반 관측신뢰도와 스코어 기반 관측신뢰도를 이용한 인식률의 차는 잡음량이 적은 경우 즉, SNR이 20.8[dB]에서 6%미만으로 SNR기반 관측신뢰도가 약간 더 우수하다. 그러나 잡음량이 많은 SNR이 7.9[dB]의 경우는 인식률차가 1%미만으로 거의 차이가 없었다.
본 논문에서 제안한 방식인 스코어 기반 관측신뢰도는 SNR의 계산 없이 사용할 수 있다는 장점을 가지고 있다. 이 방법은 SNR을 계산하기 위해 부가적 계산량이 많은 시스템이나 잡음의 특성이 매우 동적이어서 SNR 추정이 매우 어려운 잡음환경 하에서도 유용하게 활용할 수 있다.
An observed signal is corrupted and distorted by channel and noise, resulting in poor speaker recognition performance in ubiquitous environments as well as in real life. As noise is a part and parcel to the real environment signal, it is almost imposs...
An observed signal is corrupted and distorted by channel and noise, resulting in poor speaker recognition performance in ubiquitous environments as well as in real life. As noise is a part and parcel to the real environment signal, it is almost impossible to eliminate noise from signal. Though robust features and model adaptation techniques have been developed to mimic noise, coping it remains a challenge.
This deals with modified GMM (Gaussian Mixture Model) training with observation confidence, a new technique that deals with noisy signals. Observation confidence of a signal is a measurement scale indicating signal quality, and SNR (Signal to Noise Ratio) is a quantity used to measure the confidence using the sigmoid membership function. The modified GMM training method is developed using the observation confidence as a weighting. The EM (Expectation Maximization) algorithm is applied for optimization in the training stage. The proposed method is applied in the speaker identification domain area, and experimental results validate the proposed method.
After observation confidence is estimated using membership function in accordance with SNR values, the weighting factor of probabilities is applied in testing stage. Text-independent speaker recognition experiments are performed with the VidTIMIT database, and text-dependent speaker recognition experiments are performed with ETRI mobile speech DB for Korean speaker recognition.
The experimental results suggest that the modified GMM shows a better value of using the observation confidence based on SNR. The optimized particle swarm method shows the best recognition rate as being based on modified GMM.
In signal-based reliability, SNR is estimated dynamically from the signal. It is difficult for SNR to be used as a parameter of observation confidence because of challenges in correct estimation and inherent errors in additive calculation. To address this problem, score-based reliabilities obtained from speaker model's probabilities instead of dynamic SNR estimations is proposed. According to the experimental results, SNR-based reliability shows a slight improvement value over score-based reliability. Experimental results suggest that recognition rate using score-based reliabilities is almost identical to SNR-based reliability in severely noisy environments. Therefore the proposed methods are successfully applied in cases where SNR is unavailable.
,韩语毕业论文,韩语论文 |