다양한 잡음환경에서 VAD기반 음성향상 연구 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

This thesis explains methods to enhance quality of speech by removing noises with binary masks which were derived from estimated noise patterns by enhancing VAD(Voice Activity Detection) for better noise detection. The estimation of noises is very imp...

This thesis explains methods to enhance quality of speech by removing noises with binary masks which were derived from estimated noise patterns by enhancing VAD(Voice Activity Detection) for better noise detection. The estimation of noises is very important to remove noises from voices with background noises. Among noise estimation methods by VAD, methods using statistical features of noise and speech shows good performances. This statistical methods presume that voices and noises have different gaussian distribution. This method performs well with noises which have different statistical features with voice such as the white noise. However, it had poor performance against various noises with low SNR and against SSN(Speech Shape Noise) which similar statistical feature to voices. The conventional speech enhancement produces poor quality of speech by remained noises from wrong estimation of noises. In this theses noise DB was built by modeling 8 noise models(airport, babble, car, exhibition, restaurant, street, station, train) that are proposed from ETSI(European Telecommunication Standard Institute) Aurora 2 noise DB. The proposed VAD detects speech using the DB and speech detection parameters(Entropy, Harmonic Score, SEM; Speech Energy Maximization, S-SNR; Segmental SNR) which are robust to SSN noises. The speech enhancement method that the VAD uses the estimated noise spectrum pattern to create a binary mask and then removes remained noises by the binary mask is also proposed. The proposed detects speech with the noise DB and the speech parameters at the first pass and then detects the unvoiced consonants using S-SNR at the second pass. The detected speech region have VAD outputs that is distinguished from noises and the noise spectral patterns from these outputs are used to make binary masks. ROC(Receiver Operating Characteristic) curve analysis was applied to 8 noise models at 15 ~ 0dB SNR for estimating VAD performance. The ROC analysis was applied to the proposed method, individual speech parameters, 2 combination speech parameters, and conventional methods. The conventional methods were ZCR(Zero Crossing Rate), log energy, Chi-square test, LLR(Long Likelihood Ratio). MMSE-STSA and the proposed methods were test in time and frequency domain to compare performances. SNR enhancement ratio was applied to test in time domain. PESQ(Perceptual Evaluation of Speech Quality), ISD(Itakura-Saito Distance), and the binary mask were applied for tests in frequency domain. Names of railroad stations in Korean were the test speeches. The Aurora 2 noise DB by ETSI was applied to the test. The results showed that the proposed 2-pass VAD has better TPR(True Positive Ratio) and FPR(False Positive Ratio) performances. The ROC curves of the proposed method were 100% TPR and 0% FPR with babble noise at 15dB and 97.56% TPR and 5.21% FPR at 0dB. Based on these ROC curve analysis the proposed method has very good performance. The proposed method enhanced 43% at ISD, 14% at PESQ, and 7dB of SNR enhancement than MMSE-STSA. The removal of residual noises were also improved a lot.

이 논문은 다양한 잡음환경과 낮은 SNR에서 급격히 저하되는 VAD(Voice Activity Detection)의 성능을 개선하여 잡음을 추정하고 추정된 잡음 패턴을 이용하여 만든 바이너리 마스크에 의해 잡음을 ...

이 논문은 다양한 잡음환경과 낮은 SNR에서 급격히 저하되는 VAD(Voice Activity Detection)의 성능을 개선하여 잡음을 추정하고 추정된 잡음 패턴을 이용하여 만든 바이너리 마스크에 의해 잡음을 제거하여 음성의 품질을 개선하는 음성향상 방법에 관한 논문이다. 배경잡음이 가산된 음성에서 잡음을 제거하기 위해서는 잡음의 추정이 매우 중요하다. 잡음을 추정하는 방법 중 VAD에 기반 하여 잡음을 추정하는 방법에서 좋은 성능을 보여주는 전통적인 방법에는 잡음과 음성의 통계적인 특성을 이용하는 방법이 있다. 통계적인 특성을 이용하는 방법은 잡음과 음성의 통계적인 특성이 서로 독립된 가우시안 분포를 갖는다는 가정 하에 잡음을 추정하는 방법이다. 이러한 방법은 백색잡음과 같이 통계적인 특성이 음성과 많이 다를 경우에는 성능이 좋으나 실제의 상황에서 발생하는 다양한 잡음과 같이 낮은 SNR과 통계적 특성이 음성과 유사한 SSN(Speech Shape Noise)잡음의 경우에는 그 성능이 떨어지는 단점이 있다. 또한 전통적인 음성향상 방법은 잘못된 잡음의 추정에 따라 잔존잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 잃어 음성품질을 저하시키는 문제가 있다. 본 논문에서는 이 같은 문제를 개선하고자 SSN잡음의 통계적 특징을 제공하는 ETSI(European Telecommunication Standard Institute) Aurora잡음 DB에서 제안한 잡음모델 8가지(airport, babble, car, exhibition, restaurant, street, station, train)를 모델링하여 잡음 DB를 만들고 SSN잡음에 강인한 음성검출 파라미터(Entropy, Harmonic Score, SEM; Speech Energy Maximization, S-SNR; Segmental SNR)와 이를 바탕으로 2-pass 음성검출을 실시하는 VAD를 제안하였다. 또한 VAD에 의해 추정된 잡음 스펙트럼 패턴을 이용하여 바이너리 마스크를 만들고 바이너리 마스크에 의해 잔존잡음을 제거하는 음성향상 방법에 대해 제안하였다. 제안된 방법은 1-pass에서 모델링된 잡음 DB와 제안된 음성파라미터를 통해 SSN 잡음환경에서 음성검출을 실시하고 2-pass에서 S-SNR을 이용하여 무성자음을 검출한다. 검출된 음성영역은 잡음영역과 구분하는 VAD출력 결과를 갖게 되고 VAD 출력을 이용하여 만들어진 잡음 스펙트럼 패턴은 바이너리 마스크를 만드는데 이용된다. 본 논문에서는 제안된 방법의 성능을 평가하기 위해 VAD 성능과 음성향상 성능을 각각 평가 하였다. VAD 성능을 평가하기 위해서는 제시된 8가지 잡음 모델에 대해 15~0dB의 SNR 변화를 적용하여 ROC(Receiver Operating Characteristic) 커브 분석을 실시하였다. VAD 실험 결과에 대한 ROC 분석은 제안된 방법과 개별 음성파라미터, 2개 조합 음성파라미터 그리고 기존방법에 대해 실시하였다. 기존방법으로 사용된 알고리듬은 ZCR(Zero Crossing Rate)과 Log Energy, Chi-square 검사, LLR(Log Likelihood Ratio)검사를 사용하였다. 한편 음성향상 성능측정을 위해서는 MMSE-STSA와 제안된 방법에 대해 시간영역과 주파수영역에서의 비교평가를 실시하였다. 시간영역에서의 평가 방법으로는 SNR 향상율, 주파수 영역에서는 PESQ(Perceptual Evaluation of Speech Quality), ISD(Itakura-Saito Distance), 바이너리 마스크를 사용 하였다. 실험에 사용된 음성어휘는 실험을 위해 특별히 수집된 한국어 기차역명이 사용되었으며 잡음 DB는 ETSI에서 제안한 Aurora 2잡음 DB를 사용하였다. 실험결과 제안된 2-pass VAD 방법이 기존방법에 대해 TPR(True Positive Ratio)과 FPR(False Positive Ratio)성능이 모두 우수한 것으로 나타났다. 또한 제안된 방법의 ROC Curve 결과는 SNR 15dB Babble 잡음에서 100%의 TPR성능과 0%의 FPR의 성능을 보였으며, 0dB에서는 97.56%의 TPR성능과 5.21%의 FPR성능을 보여 ROC curve 분석을 통해 보면 제안된 방법이 완벽한 판정방법에 가깝다는 것을 확인할 수 있었다. 음성향상 성능비교는 제안된 방법과 MMSE-STSA에 대해 실시하였고 실험결과 ISD는 43%, PESQ는 14%의 성능향상을 보였고 SNR 개선율은 7dB가 향상되었으며 바이너리 마스크를 통한 비교에서 잔존잡음 제거가 크게 개선된 것을 확인 할 수 있었다.

韩语论文韩语论文题目
免费论文题目: