최근 모든 산업에서 인간이 생활하는 모든 환경에 컴퓨팅 기술이 접목되고 있다. 이 같은 사물인터넷 환경에서 음성인식 시스템은 사용자가 서비스를 제어하는데 중요한 HCI 수단으로 자리 ...
최근 모든 산업에서 인간이 생활하는 모든 환경에 컴퓨팅 기술이 접목되고 있다. 이 같은 사물인터넷 환경에서 음성인식 시스템은 사용자가 서비스를 제어하는데 중요한 HCI 수단으로 자리 잡고 있다. 본 논문은 한국어 모음에 대한 음소 인식의 일부로써 모음 ‘ㅏ’, ‘ㅓ’, ‘ㅣ’ 음성 인식의 알고리즘을 설계하고, 간단한 휴리스틱과 신경망 학습으로 모음 인식을 구현하고자 한다.
기존의 음성 인식 서비스 중에서 음소를 기반으로 하는 HMM과 TDNN 인식기는 꽤 높은 인식률을 보여주고 있다. 이 기술들은 확률적인 모델을 사용하기 때문에 본 연구와는 접근법 자체가 다르며 예측할 때마다 확률 통계 모델을 사용해야하는 번거로움이 있다.
본 연구에서는 새로운 접근법으로 이러한 문제점을 보완하고자 한다. 음소를 인식의 기본단위로 하여 모음 ‘ㅏ’, ‘ㅓ’, ‘ㅣ’ 음성의 여러 파형 패턴들을 관찰한다. 그 결과, 각 모음이 특정한 파형 패턴을 가지고 있음을 발견하였고 각 모음의 패턴을 인식하는 휴리스틱을 제시한다. 또한, 신경망 학습을 적용하여 인식성공률을 높인 실험 결과도 제시한다. 모음 ‘ㅏ’, ‘ㅓ’, ‘ㅣ’에 대한 본 알고리즘은 파형의 특징 추출을 기반으로 인식하며, 각 모음에 대한 인식 알고리즘의 성능을 평가한 결과 약 91%, 85%, 90% 이상의 정확도로 인식하는 것을 확인하였다.
본 연구는 간단한 휴리스틱으로 한글 모음 ‘ㅏ’, ‘ㅓ’, ‘ㅣ’ 인식이 성공한 것에 의미가 있으며, 이 알고리즘은 아주 적은 컴퓨팅을 요구하므로 소형기기나 웨어러블 디바이스 등에도 활용될 수 있다. 또한, 이후에 본 논문에서 다루지 못한 다른 모음들의 인식이 완료된다면 향후 HCI 음성 서비스에 큰 역할을 할 수 있다.
With the recent increase of the interest in IoT in almost all areas of industry, computing technologies have been increasingly applied in human environments. In these IoT environments, speech recognition is being widely accepted as a means of HCI for ...
With the recent increase of the interest in IoT in almost all areas of industry, computing technologies have been increasingly applied in human environments. In these IoT environments, speech recognition is being widely accepted as a means of HCI for users to control the speech services. This thesis is a part of phonemes recognition research for Korean vowel, designing speech recognition algorithms for ‘ㅏ’, ‘ㅓ’, ‘ㅣ’ and suggests a simple vowel recognition heuristic algorithm for each ‘ㅏ’, ‘ㅓ’, ‘ㅣ’.
Although the two existing works, HMM and TDNN-based speech recognizer, show quite a high recognition rate, these techniques are different from our approach because they use a probabilistic model and need heavy computing overheads for predicting the probability.
In this thesis, we solved this problem with a new approach. We observed a large number of wave patterns of vowel ‘ㅏ’, ‘ㅓ’, ‘ㅣ’. As a result, we discovered that there is a unique waveform pattern for each vowel and we can design and implement a heuristic algorithm for each vowel to recognize the patterns of each. In addition to that, to find more accurate wave pattern features and enhance the recognition success rate, we adopted the neural-network learning. Algorithms we propose for vowel ‘ㅏ’, ‘ㅓ’, ‘ㅣ’ are based on the common waveform features extraction. We can observe by performance evaluation that more than 91%, 85%, 90% for each vowel can be successfully recognized when our algorithms are used.
This performance results means that the Korean vowel can be successfully recognized just by using a simple heuristic algorithm instead of complex probabilistic model. The simplicity of thess algorithms make them utilized in small devices or wearable devices that have very little resources. In addition, if the recognition of other vowels which are not covered in this thesis is completed, it could play a big role in the future HCI voice services.
,韩语论文网站,韩语论文范文 |