한국어 인식을 위한 딥러닝 기반의 영상-음성 인식과 입술 검출 시스템 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

많은 사람들이 음성인식에 주목하고 있고, 연구자들은 음성인식에 대한 다양한 방법들을 제안하고 있다. 하지만 제안된 대부분의 음성인식 방법들은 치명적인 결함을 가지고 있다. 결함은 ...

많은 사람들이 음성인식에 주목하고 있고, 연구자들은 음성인식에 대한 다양한 방법들을 제안하고 있다. 하지만 제안된 대부분의 음성인식 방법들은 치명적인 결함을 가지고 있다. 결함은 노이즈가 있는 상황에서 음성인식을 했을 때 정확도가 낮아진다는 것이다. 이러한 단점을 해결하기 위해 영상 언어 인식 (visual speech recognition) 방법을 제안했다. 영상 언어 인식은 독순술처럼 사람의 입술 영상이미지를 사용하여 음성신호 없이 언어를 인식하는 방법이다. 본 논문에서는 Convolutional neural network (CNN)을 이용하여 영상 언어 인식 시스템을 구현하였다. 이 영상 언어 인식 시스템의 성능을 확인하기 위한 데이터베이스로는 위급상황에서 사용될 수 있는 단어 53개를 응급의료용어집에서 선택하였다. 그리고 세 명의 피험자들이 53개의 단어들을 말하는 동영상을 촬영하였다. CNN에 사용할 학습 및 테스트 입력이미지를 위해 영상 이미지에서 음성신호를 이용해 초성, 중성, 종성의 이미지를 추출한 뒤 Viola-Jones 검출 알고리즘을 사용하여 입술 영역만 따로 잘라냈다. 잘라낸 입술영역 이미지들은 CNN의 학습이미지를 사용할 경우 라벨링을 하였고, 테스트 이미지로 사용할 경우 단어별로 정렬하였다. 초성과 중성, 종성을 분류하기 위해 3층으로 CNN 구조를 구성하였고, 실험에 사용된 CNN의 구조로는 Le-5와 VGG을 사용하였다. CNN에서 나온 결과들을 이용해 라벨링 된 단어들과의 거리를 이용하여 가장 가까운 단어를 선택하도록 구현하였다. 이때 거리함수로는 유클리디안 거리를 사용하였다. 이 영상 언어 인식 시스템을 이용하여 53개의 단어를 말하는 318개의 영상이미지를 분류한 결과 VGG의 경우 약 72.327%를 얻을 수 있었다. 반면 Le-5를 이용하였을 때, 22.327%의 분류율을 얻을 수 있었다. 또한 7명의 피험자를 추가하여 총 10명의 영상 이미지를 분류한 결과 약 33%의 분류율을 얻을 수 있었다.

Many people have an interest in speech recognition. Many researchers propose the methods for speech recognition. However, the speech recognition has the fault. The fault is accuracy problem when there is noise. This proposes the visual speech re...

Many people have an interest in speech recognition. Many researchers propose the methods for speech recognition. However, the speech recognition has the fault. The fault is accuracy problem when there is noise. This proposes the visual speech recognition (VSR) using lip's images for overcoming this problem. To implement the VSR, we repeatedly recorded three subjects that speak fifty-five words chosen by emergency medical service vocabulary book. To extract images of the constants, vowels, and final consonants on the recorded video, audio signals was used. The Viola-jones detection algorithm was used for lip tracking on the extracted images. The images of lip tracking were grouped and then the images were classified using the convolutional neural network. To classify the components of a syllable such as the constants, vowels, and final consonants, the structure of the convolutional neural network used the VGG-s and modified Le-5 that has more layer. The whole components of a syllable were classified, and then the word was found by the Euclid distance and estimated labels that are results of classification. From this experiment, 72.327%, which is the classification rates using total 318 testing words, was obtained when the VGG-s was used. When Le-5 applied this classifier for words, however, the total classification rates was 22.327%. In addition, nine subject’s videos that included three subjects in previous experiments was used to check the performance of this algorithm used VGG-s, then we obtained almost 33% classification rate.

韩语论文范文韩语毕业论文
免费论文题目: