본 논문은 최근 스마트폰의 보급이 확산됨에 따라, 요구가 급속하게 증가하고 있는 음성 인식의 일부로써 한국어 음소 중 파찰음 인식에 대한 연구이다. 음소는 음성을 구성하고 있는 최소단위로써 음성을 인식하는데 매우 중요한 역할을 한다. 음소를 기본단위로 하는 음성 인식 기법은 음절이나 단어단위의 인식보다 매우 효과적인 방법이지만 각각의 음소들을 정확하게 분리하고 인식하려면 발음의 다양성 등으로 인해 많은 어려움이 존재한다.
본 연구에서는 음소를 인식의 기본단위로 하는 음성 인식 시스템 구현의 일부로써 한국어 음소 중 인식하기 어려운 음소로 알려진 파찰음을 인식하기 위한 새로운 기법으로, 부호 분포 변동성을 제안한다. 아날로그 파형에 기초하여 ‘ㅅ’의 음성 파형을 분석한 결과, 파찰음과 비슷하다는 점에 착안하여 ‘ㅅ’, ‘ㅈ’, ‘ㅊ’ 만을 묶어서, 인식하고자 하는 파찰음으로 새로이 정의하였으며, 제안된 부호 분포 변동성 지표를 검증하기 위해 모바일 안드로이드 환경에서 실행되는 음성인식 시스템을 구현하였다. 구현된 시스템으로2음절 고립단어를 대상으로 실험을 수행한 결과, 기존 방법인 영교차율(ZCR)에 비해 부호 분포 변동성을 이용한 파찰음 인식 기법이 에러율을 적어도 52.2% 이상 감소시킨다는 것을 확인하였다.
This thesis describes a study on the recognition of affricates among Korean phonemes as a part of speech recognition. Speech recognition is arousing much demand of people while the smart phones are gaining wide popularity. Phoneme is the minimal unit consisting of speech and plays a very important role in recognizing speech. Although speech recognition systems using phonemes as a recognition unit work in a very efficient way than those using syllables or words, there remain many difficulties due to the variations of speech types.
In this thesis, the sign distribution volatility is proposed as a novel measure for recognizing affricates which are known to be very difficult to recognize among Korean phonemes, as a part of the implementation of speech recognition system using phoneme based recognition technique. After analyzing speech waveforms of ‘ㅅ’, we define a new Korean phonemes group of ‘ㅅ’, ‘ㅈ’, ‘ㅊ’ according to the similarity of their waveforms. To evaluate the effectiveness of our measure, we design and implement an android-based mobile speech recognition system. According to the experimental results using bi-syllables isolated words, the proposed measure shows better performance by about 52.2% in the error rate than the existing zero crossing rate.
