분절 기반의 대어휘 한국어 연속 음성 인식에 관한 연구 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-28
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

The goal of this thesis is to propose a practical prototype for large vocabulary continuous speech recognition system based on the segment, which is characterized with the search algorithm based on the segment-based phonemic model and weighted finite ...

The goal of this thesis is to propose a practical prototype for large vocabulary continuous speech recognition system based on the segment, which is characterized with the search algorithm based on the segment-based phonemic model and weighted finite state transducer. For the segment-based phonemic model we trained the monophone as a segment model and diphone as a boundary model, by implementing multi-level acoustic segmentation algorithm and, then, estimating the acoustic-phonetic landmarks. We also developed a real-time decoder module based on the weighted finite state transducer for flexible support for both finite state network and class-based n-gram language model.
For the performance and efficiency test we used ETRI Speech Toolkit (ESTk) for Korean and CMU Sphinx 3 for English. For Korean we trained the generalized acoustic model based on two thousand speaker’s speech database and domain-restricted language model based on the Web query corpus for restaurant search. For English we trained acoustic and language models based on the SiTEC speech database English02 and its transcripts, originally designed for teaching English pronunciation.
Compared to the conventional speech recognizer ESTk, we achieved 18.9% error reduction rate (ERR) for the top 1 sentence hypothesis and 87.3% ERR for the top 10 sentence hypotheses for Korean. And as for English, we achieved 49.0% ERR for top 1 sentence hypothesis and 72.0% for top 10 sentence hypotheses, compared to Sphinx 3. The proposed system is shown to outperform ESTk in resource use, by using only 0.51 times real time (xRT) on Intel Xeon 2.66GHz CPU and about 45 mega bytes run-time memory to generate top 10 sentence hypotheses, compared with 17.88 xRT and about 781 mega-bytes of ESTk.

본 논문에서는 음소 구간을 상세 단위인 프레임으로 나누고 이로부터 통계적 관측치들을 추정함으로써 음소를 모델링하는 종래의 음성인식 방법론을 개선하여 음소 구간 전체를 하나의 통...

본 논문에서는 음소 구간을 상세 단위인 프레임으로 나누고 이로부터 통계적 관측치들을 추정함으로써 음소를 모델링하는 종래의 음성인식 방법론을 개선하여 음소 구간 전체를 하나의 통계적 관측치로써 모델링하는 분절 기반한국어 음성 인식 방법론을 기술하는 것을 목표로 한다. 다른 목표는 이러한 분절 기반의 음성인식 방법을 구현하여 그 실용적인 프로토타입을 제시하는 것이다.
분절 기반 방법론의 핵심은 종래 프레임 기반 관측치로서는 표현하기 어려운 음향-음성학적 변별 자질을 표현하고 이를 효율적으로 수용하는 알고리즘을 도입함으로써 음성인식 성능을 개선하고자 하는 것이다. 분절의 추정은 시간 영역의 음성 신호를 스펙트럼 영역으로 변환한 다음 시공간적인 안정 및 천이 구간을 규명하는 다단계 음향 분절화 알고리즘에 따라 구현하고 있다. 이렇게 추정된 음소 경계인 랜드마크에 기반하여 두 가지 유형의 분절 모델인 문맥독립음소로서의 모노폰과 문맥종속음소로서의 다이폰을 모델링하게 된다. 이때 가변프레임율 적용 및 차원축소 과정을 통해 계산된 음소별 분절 특징 값에 대해 다중 가우시안 혼합 모델을 학습하는 것이 음향 모델링의 과정이다.
한편 음성인식에 사용되는 제반 지식과 제약 조건을 표현하고 수용하는 동시에 분절 기반의 관측치에 기반하는 탐색을 효율적으로 수행하기 위해 잘 알려진 유한 상태 트랜스듀서를 구현하고 있다. 이때 언어 모델 측면에서 정형 문법을 기술하는 유한 상태 네트웍과 통계적 언어 모델인 클래스 기반의 N-그램을 유연하게 수용할 수 있도록 구현하고 있다. 탐색 알고리즘은 세 단계로 구분되는 데 바이그램을 사용하는 전향 탐색, 트라이그램을 수용하는 후향 탐색, 마지막으로 다수 개의 인식 후보를 생성하도록 A-star 탐색을 수행하여 고정도의 인식 결과를 도출하도록 하고 있다.
분절 기반 음성인식 엔진의 성능 및 효율성 검증을 위해 한국전자통신연구원의 ESTk와 카네기멜른대학의 Sphinx 3를 비교 대상으로 사용하였다. 한국어 인식을 위해서는 약 2천 명분의 음성 코퍼스를 사용하여 범용 음향모델을 학습하였고 인터넷 맛집 검색에 사용된 질의어를 사용하여 영역 제한적인 어휘 및 언어 모델을 학습하였다. 영어 인식을 위해서는 발성교육을 위해 수집된 SiTEC의 음성 데이터베이스를 사용하여 음향 및 언어 모델을 학습하였다. 실험 결과 맛집 검색 영역에 있어서 74.3%의 TOP 1 문장 인식율을 얻어서 ESTk의 68.3%에 비해 오류 개선율이 18.9%, TOP 10 문장 인식율은 97.1%로 ESTk의 77.1%에 비해 87.3%의 의미있는 오류 개선율을 얻었다. 영어의 경우 80.75%의 TOP 1 문장 인식율을 얻어서 Sphinx의 62.25%에 비해 49.0%의 오류 개선율, TOP 10의 경우는 94.85%로 Sphinx의 81.6%에 비해 72.0%의 의미있는 오류 개선율을 얻었다. 한편 실시간 성능의 경우 제안된 방법론이 인텔 Xeon 2.66GHz CPU 상에서 0.51xRT, ESTk는 17.88xRT를 나타내고 있어서 처리 시간 면에서도 현저한 개선 효과를 얻을 수 있었다.

免费韩语论文韩语论文
免费论文题目: