한국어 전사 시스템의 효율적인 레이블링 모듈에 관한 연구 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

아동 구어 연구를 위한 말뭉치는 음성 데이터를 문자로 옮기는 전사(Transcription)라는 과정이 필요하다. 또한, 전사는 언어 연구를 효과적으로 하기 위해 말뭉치 주석(annotation)을 기록하는 과...

아동 구어 연구를 위한 말뭉치는 음성 데이터를 문자로 옮기는 전사(Transcription)라는 과정이 필요하다. 또한, 전사는 언어 연구를 효과적으로 하기 위해 말뭉치 주석(annotation)을 기록하는 과정을 포함한다. 말뭉치 주석을 기록하는 것은 연구 목적에 따라 발화가 이루어지는 시간, 화자의 정보, 발화의 형태소 정보 등의 많은 정보를 기록해야 한다. 말뭉치 주석을 기록하는 작업 중 문자로 표현된 발화를 녹음 음성에 연결해주는 작업을 레이블링이라고 한다. 전사 및 레이블링을 위한 프로그램을 전사 도구라고 한다. 대부분의 전사도구는 음성 데이터를 문자로 옮기기 위한 텍스트 편집부를 가지고 있고, 음성을 다루기 위한 음성 컨트롤러를 포함한다. 또한, 말뭉치 주석을 기록하기 위한 복잡한 인터페이스 등을 제공한다. 국내에서 개발된 전자 전체를 위한 전사도구는 거의 없고, 음성을 텍스트로 옮기는 1차 전사를 지원하는 도구로는 CosmoScribe 2.0이 있다. KSTARS는 1차 전사만이 아닌 말뭉치 주석을 기록하는 2차 전사를 위해 제안된 도구이다. CosmoScribe 2.0에서 제시하는 1차 전사를 위한 기능을 개선하고 2차 전사를 위한 기능들이 추가되었다. 추가된 기능으로는 한국어 구어 분석을 위한 형태소 분석과 입력, 통계 등이 있다. 그러나 개발 중인 도구이므로 해외 전사도구가 지원하는 기능이 전부 구현되어 있지는 않다. 본 논문에서는 KSTARS에 필요한 2차 전사를 위한 기능을 조사하였고 레이블링 모듈 추가를 목표로 한다. 또한, 레이블링 모듈의 추가로 인한 활용방안을 확인한다. 본 논문에서는 KSTARS의 레이블링 모듈을 도입하기 위해 기존의 수동 레이블링 도구들과는 다르게 반자동 레이블링을 제안한다. 반자동 레이블링은 자동화 모듈과 수동 조정 모듈로 구성된다. 자동화 모듈은 G.Saha 알고리즘을 활용하여 음성구간을 추측하고, 기구축된 발화 텍스트의 발화 수와 발화 길이 정보를 이용하여 발화구간을 예측한다. 예측된 발화구간은 정확하지 않으므로 기존 수동 도구의 정확성을 유지하기 위하여 자동 레이블링된 발화구간을 보정하기 위한 수동 조정 사용자 인터페이스를 제공한다. 제안하는 반자동 레이블링 알고리즘으로 구현한 도구는 기존 수동 레이블링 도구와 비교하여 작업 속도가 평균 27% 증가하였다. 또한, 평가 결과 사용자들은 74.1%의 평균 이상의 만족도가 나타났다.

Transcription process needs to be carried out to translate voice data into text to corpus for child spoken language research. And transcription involves tagging corpus annotation for language research effectively. In process of tagging corpus annotati...

Transcription process needs to be carried out to translate voice data into text to corpus for child spoken language research. And transcription involves tagging corpus annotation for language research effectively. In process of tagging corpus annotation, labeling is a work which linking utterance expressed text to recorded speech. Transcription tool is a program for transcription and labeling. Most transcription tool has text editor for translate voice data into text, and involves audio controller. In addition, involves the complex interface for tagging corpus annotaion. Since there are little transcription tools for the full of transcription developed domestically in Korea, the tool supported 1st transcription which translate voice into text is a ComsoScribe 2.0. KSTARS is the proposed tool for 2nd transcription which tagging corpus annotation not only 1st transcription. It improves function for 1st transcription suggested by CosmoScribe 2.0 and adds function for 2nd transcription. Added functions have morpheme analyze and input, statistics for Korean spoken language analyze. However, it does not exist all of functions which provided with foreign tools. That's why, it is a under developing tool. This check into functions that KSTARS need for 2nd transcription, and plans to add the labeling module. Also, confirmed utilization is due to adding labeling module. This propose semi-automatic labeling differ from existing manual labeling tool, for introduce labeling module into KSTARS. Proposed semi-automatic labeling consist of automation module and manual adjustment module. Automation module extract voice boundaries utilizing G.Saha's algorithm, and predict utterance boundaries using the number and length of utterance which established utterance text. This provide manual adjustment user interface for revise the auto-labeling utterance boundaries, because maintains existing manual tool's accuracy. The implemented tools of proposed semi-automatic algorithm has work speed increased by 27% compared with existing manual labeling tool. Also, the evaluation result of user satisfaction is found in about 74.1% above the average.

免费韩语论文韩语论文网站
免费论文题目: