음성 인식 후처리를 위한 띄어쓰기 오류 교정 및 수사열 정규화 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

본 논문은 음성인식 결과의 띄어쓰기 오류를 수정하고 숫자와 관련한 어절을 정규화하는 후처리 방법을 기술한다. 음성 인식 결과의 띄어쓰기 오류를 수정하기 위하여 품사 정보를 이용한 ...

본 논문은 음성인식 결과의 띄어쓰기 오류를 수정하고 숫자와 관련한 어절을 정규화하는 후처리 방법을 기술한다. 음성 인식 결과의 띄어쓰기 오류를 수정하기 위하여 품사 정보를 이용한 어절 재결합 기법을 기본 알고리즘으로 사용하고 추가로 음절 바이그램 및 4-gram 정보를 이용하는 띄어쓰기 오류 교정 방법을 제안하였다. 또한, 음성 인식기의 출력으로 품사 정보가 부착된 경우와 미부착된 경우에 대한 비교 실험을 하였다. 미부착된 경우에는 사전을 이용하여 품사 정보를 복원하였으며, N-gram 통계 정보를 적용했을 때 기본적인 어절 재결합 알고리즘만을 사용 경우보다 띄어쓰기 정확도가 향상되는 것을 확인하였다. 부가적으로 숫자, 기호, 외래어, 약어 등에 대한 정규화 시스템을 구현하여 정보전달을 명확하게 할 수 있도록 하였다. 정규화 시스템은 LEX를 이용하여 해당 문자열을 인식한 후 잘못된 교체가 적게 발생 하도록 엄격한 기준으로 교체유무를 판단한 후 정규화를 하도록 하였다.

This presents the post processing technique of correcting the errors which occurs in the speech recognition system and it also explains the method of normalizing the words which include numeral expressions. In order to revise the word spacing er...

This presents the post processing technique of correcting the errors which occurs in the speech recognition system and it also explains the method of normalizing the words which include numeral expressions. In order to revise the word spacing errors of the speech recognition system, I applied a simple method of word recombination technique of parts of speech (POS) information and then, a method of using both the syllable bigram and the 4-gram information. Moreover, I compared and evaluated the performance of the system where POS information is attached or detached to the speech recognizer's output. In case of POS tag is not attached, it is restored by the dictionary. I found out that the word spacing precision can be improved by applying the N-gram's statistical data rather than using the simple word recombination method. Furthermore, I implemented the system that normalizes the numeral expressions, symbols, foreign words, and abbreviations to achieve the clear and precise transfer of information. Finally, I made the normalizing system to use LEX, so it can properly recognize certain string and strictly decide the need of replacement before actually normalizing in order to avoid any wrong replacement.

韩语论文题目韩语毕业论文
免费论文题目: