The work in this thesis concerns a small footprint Acoustic Model (AM) and its use in the implementation of Korean Large Vocabulary Isolated Speech Recognition(LVISR) system for navigation, which requires less than 1MB of memory. Considering that a LV... The work in this thesis concerns a small footprint Acoustic Model (AM) and its use in the implementation of Korean Large Vocabulary Isolated Speech Recognition(LVISR) system for navigation, which requires less than 1MB of memory. Considering that a LVISR system consists of an AM and a language model, and that the implementation of an language model consumes at least 500K of memory, this research aims to successfully implement an AM for Korean LVISR using less than 500K. The main constraint in navigator systems are limitations in memory capacity. This limitation requires the implementation of a reliable small footprint AM with limited memory use. Another constraint of a navigator speech recognition system is background noises. Therefore, the performance of the system must be able to be robust to various types of background noises such as babble noises and engine noises. To overcome the first constraint, the implementation of the proposed acoustic model is based on tree-based state clustering and parameter integer arithmetic operations. Tree-based state clustering reduces the number of total unique states, while preserving its original performance. However, further reductions in memory requirement is necessary because floaing-point based AM comsumes more than 500KB even after applying tree-based state clustering. In this thesis, further memory reductions are achieved through the introduction of integer arithmetic operations. As a solution to the second constraint, this thesis proposes a Voice Activity Detection(VAD) system robust to car engine noises. Car engine noises tend to have most of their band energies lower than 200Hz. Considering this frequency characteristic, the proposed VAD system first detects the periodic parts of input signal using a periodicity measure, then calculates the sum of band energies between 200Hz and 1,000Hz. Based on the value of the sum of these energies, the VAD system decides the starting point and end point of speech.
본 논문은 네비게이션용 한국어 대어휘 고립단어 인식을 위한 트리기반 상태 군집화 및 파라미터 정수화를 이용한 소용량 음향모델을 제안한다. 임베디드 연속음성인식 시스템의 경우, 매... 본 논문은 네비게이션용 한국어 대어휘 고립단어 인식을 위한 트리기반 상태 군집화 및 파라미터 정수화를 이용한 소용량 음향모델을 제안한다. 임베디드 연속음성인식 시스템의 경우, 매우 작은 메모리 사용량을 요구한다. 연속음성인식 시스템이 음향 모델과 언어 모델로 구성되며, 언어 모델의 구현을 500K 미만의 메모리 사용함을 감안하여, 1M 미만의 음성인식 시스템 구현을 위해, 500K 미만의 음향모델을 구현하는 것을 본 연구에서는 목표로 한다. 네비게이터 환경에서 주요 제약 사항은 메모리 용량이다. 이러한 제약사항은 제한된 메모리만을 사용하는 소용량 음향 모델을 요구한다. 또 다른 제약사항은 환경잡음이다. 그러므로 네비게이터의 음성인식 시스템은 자동차 엔진 소음 등 다양한 종류의 환경잡음에 대해 강인한 성능을 보여야 한다. 첫 번째 제약사항을 극복하기 위해서, 제안된 음향모델은 트리기반 상태 군집화와 파라미터 정수화에 기반하고 있다. 트리기반 상태 군집화는 원래의 성능을 유지하면서, 총 고유한 상태의 수를 줄이는 방법이다. 그러나 트리기반 상태 군집화를 적용하더라도 부동소수점 연산을 하는 음향모델의 메모리 사용량이 500KB를 초과하기 때문에 추가적인 메모리 사용량 감소가 필요하다. 본 논문에서는 파라미터 정수화를 통하여 추가적인 메모리 사용량 감소를 이루어내었다. 두 번째 제약사항의 해결책으로 본 논문은 자동차 엔진 소음에 강인한 음성 구간 검출 시스템을 제안한다. 자동차 엔진 소음은 대부분의 밴드에너지가 200Hz 이내에 분포하는 경향을 보인다. 이러한 주파수 특성을 고려하여, 제안된 음성구간검출 시스템은 우선 주기성 측정을 통해 입력신호의 주기적인 부분을 검출하고, 200Hz 와 1,000Hz 사이에서의 밴드에너지의 합을 계산한다. 이러한 에너지의 합에 기반하여, 음성구간검출 시스템은 음성의 시작지점과 끝지점을 결정한다.
참고문헌 (Reference)
활용도 분석
View
Usage
Share
|