자동통역 기술은 통역할 두 언어의 양방향 음성 인식 기술, 자동 번역 기술, 그리고 음성 합성 기술이 필요한 고난도 기술이다. 특히 음성인식 기술의 경우, 신뢰도 있는 음향모델 등 고품질 ...
자동통역 기술은 통역할 두 언어의 양방향 음성 인식 기술, 자동 번역 기술, 그리고 음성 합성 기술이 필요한 고난도 기술이다. 특히 음성인식 기술의 경우, 신뢰도 있는 음향모델 등 고품질 인식 성능을 확보하기 위해서는 해당 언어의 대용량 음성데이터 확보가 필요하다. 그러나 신규 언어의 음성 인식기를 개발 하는 경우, 해당 언어의 음성 데이터를 새롭게 구축하는 데는 많은 시간과 비용이 요구된다.
일본어 음성인식기 신규 개발의 음향 모델링에서 초기에 부족한 일본어 음성 데이터를 새롭게 구축하는 시간과 비용을 절약하기 위해, 본 논문에서는 한국어 음성데이터베이스를 통해 일본어 음향 모델의 성능을 개선하는 방법에 관하여 제안한다. 일본어 발음과 한국어 발음이 유사한 특성을 근거로 한국어 음성 데이터를 이용하여 일본어 음향 모델의 성능을 개선하는 것을 목표로 한다. 특히 제안 방법은 일본어-한국어에 국한되지 않고 스페인어와 영어와 같이 유사한 다른 언어쌍들에게도 적용 할 수 있다는 장점이 있다.
본 논문에서는 이종 언어 간 음성 데이터를 섞어서 훈련하는 방법인 Cross-Language Transfer, Cross-Language Adaptation, Data Pooling 등 방법을 설명하고, 현재 보유하고 있는 일본어, 한국어 음성 데이터 환경에 적합한 Data Pooling 방법을 선정하였다.
기존에 연구되어진 일반적인 Data Pooling의 경우 목적 언어인 일본어의 음성데이터가 크게 부족한 환경에서의 효과는 검증되었으나, 목적 언어의 음성 데이터가 어느 정도 확보된 상태에서는 그 성능 개선 효과가 미비하였다. 그러나 Data Pooling 방법을 통한 훈련과정 중 삼중음소(Triphone) Tyied-List를 목적언어로만 구성하였을 때, ERR(Error Reduction Rate)이 12.8%로 성능이 향상됨을 확인하였다.
Enhancements of Japanese Acoustic Model using Korean Speech Database
The amount of speech database for automatic speech recognition are essential for superior recognition performance.
But we need to spend lots of time and cost for speech database wh...
Enhancements of Japanese Acoustic Model using Korean Speech Database
The amount of speech database for automatic speech recognition are essential for superior recognition performance.
But we need to spend lots of time and cost for speech database when we develop automatic speech recognizer for new language.
For the reason above, In this thesis propose an enhancement of Japanese acoustic model which is trained with Korean speech database by using several combination strategies. We describe the strategies for training more than two language combination, which are Cross-Language Transfer, Cross-Language Adaptation, and Data Pooling Approach. We simulated those strategies and found a proper method for our current Japanese database. Existing combination strategies are generally verified for Under-resourced Language Environments, but when the speech database is not fully Under-resourced, those strategies have been confirmed inappropriate. We made tyied-list with only object-language on Data Pooling approach training process. As the result, we found the ERR of the acoustic model to be 12.8%.
,免费韩语论文,韩语毕业论文 |