정보화 시대가 발전함에 따라 인간의 음성과 기계 인터페이스를 필요로 하는 연구가 활발하게 진행되고 있다. 음성인식(네비게이션, 홈오토메이션), 보청기 등의 다양한 응용분야는 배경잡...
정보화 시대가 발전함에 따라 인간의 음성과 기계 인터페이스를 필요로 하는 연구가 활발하게 진행되고 있다. 음성인식(네비게이션, 홈오토메이션), 보청기 등의 다양한 응용분야는 배경잡음의 영향으로 기계들의 성능이 감소되어 실제 환경에서 사용에 어려움이 있다. 잡음의 영향을 줄이기 위한 음질향상, 잡음제거 기법은 음성신호의 품질 향상을 위해서 기본적이고 중요한 알고리즘이다. 일반적인 주파수 차감법, 위너필터 알고리즘은 stationary 잡음 환경에서 우수한 성능을 보여주고 있지만 실제 환경은 nonstationary 잡음 환경으로 nonstationary 잡음에서는 성능이 급격하게 감소하게 된다. 이러한 문제를 해결하기 위해 음성과 잡음을 분리하는 음성분리 기법이 필요하다.
현재 음성분리를 이용한 음성품질을 향상시키는 방법은 단일 마이크로폰을 사용하는 방법과 두개 이상의 마이크로폰을 사용하는 방법으로 분류한다. 두개 이상의 마이크로폰을 이용한 ICA(Independent Component Analysis) 시스템은 효과적으로 음성분리를 수행할 수 있지만 공간적인 제약을 가져오는 환경에서는 음성분리가 어려운 문제점을 가지고 있다. 단일 마이크로폰을 이용한 음성분리 방법들 중에서 인간의 청각 인지 시스템을 모방한 CASA(Computational Auditory Scene Analysis) 시스템은 효과적으로 음성분리를 수행한다.
CASA 시스템은 인간의 청각기관을 모델링하기 위해 감마톤 ERB 필터뱅크를 이용해 시간-주파수영역으로 분해하고, 시간-주파수영역으로 분해된 음성의 특징으로부터 피치, 진폭변조, 시작점과 끝점, 고조파 정보를 이용해 음성분리를 수행한다.
CASA 시스템에서 음성분리 수행을 위해 가장 중요한 과정은 세그먼테이션과 그룹핑이다. 세그먼테이션 과정은 음성신호를 시간-주파수영역으로 분해 후 시간 연속성과 주기성을 이용해 이진 마스크를 구성한다. 그룹핑 과정은 동일한 소스에 있는 세그먼트 그룹들을 하나의 스트림으로 결합한다. 따라서 CASA 시스템은 이진 마스크를 이용해 효율적으로 음성을 분리 할 수 있다. 그러나 음성분리를 수행하기 위해서는 발성한 음성의 음성영역을 정확히 알고 있어야 하는데 배경잡음 환경에서 음성영역을 검출하는 것은 어렵고, 잘못된 음성영역검출은 음성 손실을 발생시킨다. 또한 배경잡음 환경에서 이진 마스크를 구성에 어려움이 있다. 이진 마스크를 구성할 때 잡음이 음성과 비슷한 주기성을 가질 경우 잡음이 음성으로 결정되어 잡음이 분리된 음성에는 잔여잡음이 포함되어 있다. 이러한 문제로 CASA 시스템을 이용한 음성분리 성능은 급격히 저하된다.
본 논문에서는 CASA 시스템에서 문장 음성의 음성분리와 음성품질을 향상 시키기 위하여 음성영역검출 기법과 세그먼테이션 기법을 제안하였다. 첫번째, 제안한 음성영역검출 기법은 코클리어그램의 주기성분과 비주기성분의 비율을 이용한 음성영역검출 방법으로 신호대잡음비 변화에 관계없이 음성영역을 검출하였다. 두번째, 제안한 세그먼테이션 기법은 향상된 음성 세그먼트 그룹 구성과 잔여잡음 최소화로 음성품질을 향상시키기 위한 방법이다. 세그먼테이션 과정에서 이진 마스크를 구성할 때 잡음이 음성과 비슷한 주기성을 가지고 있을 경우, 잡음이 음성으로 결정되는 문제점이 있다. 따라서 채널간 상호상관함수의 유사성에 대한 변별력을 높이기 위한 방법으로 잡음이 주기성을 가질 경우 채널간 자기상관 지연신호의 지연시간 차이에 따라 가중치로 변환하고, 가중치를 상호상관함수에 적용해 이진 마스크를 재구성한다. 그룹핑 과정에서 업데이트된 주기성분 피치정보를 이용해 남아 있는 잔여잡음을 최소화하였다. 제안한 CASA 시스템은 정확한 음성영역 검출과 잔여잡음의 최소화를 통해 문장 음성의 음성분리와 음성품질을 향상시켰다.
본논문에서, 실험에 사용한 데이터베이스는 ETRI 표준형 한국어 공통 음성 데이터베이스와 잡음 데이터베이스로서 백색잡음과 PNL의 6가지 잡음(기계, 동물, 물, 바람, 자동차, 군중)을 사용하였다. 제안한 음성영역검출 기법과 기존의 음성영역검출 기법과 비교할 때, 계산량은 증가하였지만 신호대잡음비(Signal to noise ratio) 5dB와 0dB에서 발성정확율(Corr: Utterance correct rate)이 각각 최대 평균 11.7%와 17.9%으로 음성영역검출의 성능이 크게 향상되었다. 또한 제안한 세그먼테이션 기법은 기존의 CASA 기법과 비교해 계산량은 1~2초 정도 증가하였지만 신호대잡음비 5dB와 0dB에서 평균 2dB와 평균 1.65dB가 향상되었다. 제안한 CASA 시스템을 기존의 CASA 기법과 비교하였을 때, 정확한 음성영역검출과 잔여잡음의 최소화를 달성하고, 신호대잡음비 5dB와 0dB에서 각각 최대 평균 6.17dB와 6.29dB 씩 음성분리 성능 향상과 음성의 품질 향상을 확인하였다.
,韩语论文题目,韩语论文题目 |