This thesis proposes an automatic generation method of sub-word recognition units for an unlimited vocabulary Korean continuous speech recognition system. Recognition units in conventional Korean continuous speech recognition systems are typically cat...
This thesis proposes an automatic generation method of sub-word recognition units for an unlimited vocabulary Korean continuous speech recognition system. Recognition units in conventional Korean continuous speech recognition systems are typically categorized as word-based (full-word) and morpheme-based (sub-word) units. The main disadvantage of these recognition units is that combinations of the units cannot cover all words in the Korean lexicon. The proposed method for automatic generation of sub-word units begins with its initial set of sub-word units. This set consists of all possible syllables in Korean. The frequencies of current sub-word unit pairs found in the training data are then counted. The pair of sub-word units with the highest frequency is added to the current sub-word unit set. This process is repeated until the number of sub-word units reaches a pre-defined limit.
본 논문은 한국어 무제한 어휘 연속음성 인식 시스템을 위한 sub-word 인식 단위 자동 생성 방법을 제안한다. 일반적인 한국어 음성 인식 시스템에서 사용하는 인식 단위는 주로 full-word인 어절...
본 논문은 한국어 무제한 어휘 연속음성 인식 시스템을 위한 sub-word 인식 단위 자동 생성 방법을 제안한다. 일반적인 한국어 음성 인식 시스템에서 사용하는 인식 단위는 주로 full-word인 어절과 sub-word인 형태소 기반 단위로 구분할 수 있다. 이들 인식 단위의 약점은, 인식 단위의 조합으로 한국어의 모든 단어를 커버할 수 없다는 것이다. 제안하는 sub-word 인식 단위 자동 생성 방법은 한국어에 존재하는 모든 음절들로 이루어진 초기 sub-word 집합을 구성하는 것으로 시작한다. 그 다음, 현재의 sub-word 쌍들이 학습 자료 내에 등장하는 빈도를 세어, 가장 높은 빈도수를 갖는 sub-word 쌍을 합쳐 현재 sub-word 집합에 추가한다. 이 과정을 sub-word의 수가 미리 정한 제한에 달할 때까지 반복한다.
참고문헌 (Reference)
활용도 분석
View
Usage
Share
이 자료의 주제 내 활용도 Top
|