위키피디아 비교 말뭉치를 이용한
한국어-영어 병렬 문장 추출
Extracting Korean-English Parallel Sentences
Using Comparable Corpora from Wikipedia
컴퓨터공학과 김 성 현
지 도 교 수 고 영 중
...
위키피디아 비교 말뭉치를 이용한
한국어-영어 병렬 문장 추출
Extracting Korean-English Parallel Sentences
Using Comparable Corpora from Wikipedia
컴퓨터공학과 김 성 현
지 도 교 수 고 영 중
이중 언어 혹은 다중 언어를 다루는 자연어 처리 분야에서는 질이 좋고 양이 풍부한 병렬 문장(parallel sentence)들이 필요하다. 그러나 병렬 문장을 생성하는 작업은 시간과 비용이 많이 소요되는 작업이다. 이로 인해 비교 말뭉치(comparable corpus)에서 병렬 문장만을 자동으로 식별 및 추출하기 위한 연구가 전 세계적으로 관심을 받고 있으며, 특히 통계적인 기법을 이용한 병렬 문장 자동 추출에 대해 관심이 집중되고 있다.
본 논문에서는 현재 가장 큰 온라인 백과사전인 위키피디아(Wikipedia) 비교 말뭉치로부터 한국어․영어 병렬 문장을 자동으로 추출하기 위해 다양한 실험을 수행한다. 실험 방식은 크게 세 가지로 나눌 수 있는데, 첫 번째는 사전을 이용하는 방법, 두 번째는 번역 확률을 이용하는 방법, 그리고 세 번째는 토픽 모델(topic model)을 이용하는 방법이다. 사전을 이용하는 방법은 위키피디아의 제목으로 구성 되어있는 위키사전(Wiki dictionary)과 다음(Daum)에서 제공하는 영한 및 한영 MRD(machine readable dictionary), 그리고 여러 형식의(날짜, 서수 등 포함)들로 구성된 숫자사전을 이용한다. 번역 확률은 MRD와 세종 병렬 말뭉치, 그리고 다음 영한사전 예문에서 추출하였다. 또한 비지도 학습(unsupervised learning) 모델인 토픽 모델을 이용한 방법에 대해서도 실험을 수행한다. 이 방법들을 각자 단독으로, 혹은 서로 결합하는 방식으로 최적의 성능을 내기 위해 다양한 실험을 시도한다.
본 연구는 국내 최초의 병렬 문장 자동 추출 실험으로서 다양한 접근 방법 및 실험 결과를 제시함으로써, 실제 병렬 문장 추출에 바로 응용할 수 있을 뿐 아니라 향후 유사 연구들에 있어서도 큰 기여를 할 것으로 기대된다.
주요어 : 위키피디아, 병렬 문장, 비교 말뭉치, 사전, 번역 확률, 토픽 모델
,韩语论文,韩语论文范文 |