위키피디아 비교 말뭉치를 이용한 한국어-영어 병렬 문장 추출 [韩语论文]-外语论文网

위키피디아 비교 말뭉치를 이용한 한국어-영어 병렬 문장 추출 Extracting Korean-English Parallel Sentences Using Comparable Corpora from Wikipedia 컴퓨터공학과 김 성 현 지 도 교 수 고 영 중 ...

위키피디아 비교 말뭉치를 이용한
한국어-영어 병렬 문장 추출

Extracting Korean-English Parallel Sentences
Using Comparable Corpora from Wikipedia

컴퓨터공학과 김 성 현
지 도 교 수 고 영 중

이중 언어 혹은 다중 언어를 다루는 자연어 처리 분야에서는 질이 좋고 양이 풍부한 병렬 문장(parallel sentence)들이 필요하다. 그러나 병렬 문장을 생성하는 작업은 시간과 비용이 많이 소요되는 작업이다. 이로 인해 비교 말뭉치(comparable corpus)에서 병렬 문장만을 자동으로 식별 및 추출하기 위한 연구가 전 세계적으로 관심을 받고 있으며, 특히 통계적인 기법을 이용한 병렬 문장 자동 추출에 대해 관심이 집중되고 있다.

본 논문에서는 현재 가장 큰 온라인 백과사전인 위키피디아(Wikipedia) 비교 말뭉치로부터 한국어․영어 병렬 문장을 자동으로 추출하기 위해 다양한 실험을 수행한다. 실험 방식은 크게 세 가지로 나눌 수 있는데, 첫 번째는 사전을 이용하는 방법, 두 번째는 번역 확률을 이용하는 방법, 그리고 세 번째는 토픽 모델(topic model)을 이용하는 방법이다. 사전을 이용하는 방법은 위키피디아의 제목으로 구성 되어있는 위키사전(Wiki dictionary)과 다음(Daum)에서 제공하는 영한 및 한영 MRD(machine readable dictionary), 그리고 여러 형식의(날짜, 서수 등 포함)들로 구성된 숫자사전을 이용한다. 번역 확률은 MRD와 세종 병렬 말뭉치, 그리고 다음 영한사전 예문에서 추출하였다. 또한 비지도 학습(unsupervised learning) 모델인 토픽 모델을 이용한 방법에 대해서도 실험을 수행한다. 이 방법들을 각자 단독으로, 혹은 서로 결합하는 방식으로 최적의 성능을 내기 위해 다양한 실험을 시도한다.

본 연구는 국내 최초의 병렬 문장 자동 추출 실험으로서 다양한 접근 방법 및 실험 결과를 제시함으로써, 실제 병렬 문장 추출에 바로 응용할 수 있을 뿐 아니라 향후 유사 연구들에 있어서도 큰 기여를 할 것으로 기대된다.

주요어 : 위키피디아, 병렬 문장, 비교 말뭉치, 사전, 번역 확률, 토픽 모델

，韩语论文，韩语论文范文

韩国跆拳道运动的文化价值观探讨	영어 문장구조에 대한 이해가 읽기와 듣	汉韩常用颜色词对比探讨
한국과 독일의 중등교육단계에서의 진로	韩国电影剧本中会话含义的略论探讨	TV 포맷의 새로운 유형화 : 이야기, 놀이
高职院校韩语系建设的几点思考	중국인 학습자를 위한 한국어 거절 화행	항공사의 지각된 서비스품질이 실용적
영어권 학습자를 위한 한국어 교재 구성	깔뱅의 기도론 연구	도시지역 여성결혼이민자의 재사회화
모야모야 환아의 수술 후 자기효능감,	한·중 사동 표현의 대조 연구	형태 초점 접근법을 활용한 한국어 대조