통계적 기계 번역 시스템은 병렬 말뭉치로부터 번역에 관한 확률 모델을 학습하고 이에 기반하여 입력된 소스 문장에 대해 가장 그럴 듯한 타겟 문장을 생성한다. 최근 들어 웹이나 엡을 통...
통계적 기계 번역 시스템은 병렬 말뭉치로부터 번역에 관한 확률 모델을 학습하고 이에 기반하여 입력된 소스 문장에 대해 가장 그럴 듯한 타겟 문장을 생성한다. 최근 들어 웹이나 엡을 통해 통계적 기계 번역 시스템에 기반한 번역 서비스들이 소개되면서 일반 사용자들도 이러한 시스템을 접하고 있다. 기계 번역에 있어서 중요한 두 가지 요소는 어휘적으로 적합한 번역어를 생성하는 것과 문법적인 이질성을 극복하여 번역된 어휘를 적절하게 배열하는 것이다. 그러나 영어-한국어의 경우, 이러한 기계 번역 성능이 매우 떨어지는 것을 볼 수 있는 데, 오류의 원인을 살펴보면 대체적으로 어휘 번역 상의 문제라기 보다는 단어의 배열에 관한 문제인 경우가 많다. 통계적 기계 번역 시스템에서는 이 문제를 구 재배열 문제(Phrase Reordering Problem)라고 한다.
구 기반 통계적 기계 번역(PBSMT)에서 기존의 전통적인 구 재배열 방법은 거리 이동 분포에 기반하거나 어휘적 자질을 사용하여 인접 구 간의 상대적인 재배열이 맞는 지를 확률적으로 판단하는 것이다. 이들 방법은 영어-불어와 같이 언어적 차이가 크지 않는 언어 쌍에서는 좋은 성능을 보여주었지만, 최근 들어 다양한 언어 쌍에서 기계 번역이 요구됨에 따라 언어적 차이가 큰 언어 쌍에서는 구 재배열 측면에서 성능이 매우 떨어지는 것으로 보고되고 있다. 예를 들어 영어-한국어, 중국어-한국어와 같이 문법적으로 거리가 먼 언어 쌍 에서는 복잡한 재배열과 원거리 재배열이 발생하기 때문에 매우 정확한 모델이 요구되는데, 기존의 모델은 그렇지 못하다.
따라서 최근에는 이 문제를 개선하기 위해 PBSMT에서도 문법 정보를 사용하고자 하는 시도들을 하고 있다.
문법 정보를 사용하는 것은 구 재배열의 근본 원인인 두 언어의 문법적 차이를 반영하고자 하는 것이기 때문에, 이러한 시도들은 기존 방식에 비해 개선된 성능을 보여주고 있다. 그러나 대다수의 연구들이 전처리나 후처리 방식을 사용함으로써 다른 번역 요소들과 통합되지 못하고, 모델적인 측면에서, 성능적인 측면에서 한계를 보여주고 있다.
본 연구에서는 성공적인 구 재배열을 위해서는 두 언어간 문법적 차이를 직접적으로 반영해야 하며, 특히 원거리 구 재배열을 성공하기 위해서는 문장의 전체 구조를 고려해야 한다는 가정을 하였다. 기존의 방법들은 문법적 차이가 직접적으로 PBSMT에 반영되는 데 부족함이 많았고 전체 문장 구조 보다는 지협적인 문법 정보만을 고려하였다.
제안하는 구 재배열 모델은 글로벌 ``구 선행 관계''와 ``문법 구조''를 고려하는 모델이다. 이 모델의 특징은 다음과 같다. 첫째, 인접한 두 구뿐 아니라 전체 구 사이에서 구의 위치가 올바른 지를 판단할 수 있는 글로벌 구재배열 모델이다. 둘째, 구의 관계를 문법적 관점에서 해석할 수 있는 새로운 메커니즘을 제안한다. 셋째, 다양한 문법적 관점에서 구 재배열이 올바른 지 판단할 수 있는 분류 기반 모델이다. 이렇게 함으로써 기존의 어휘 기반에서 발생하는 데이터 부족 문제를 해결하면서도 원거리나 복잡한 구 재배열에 대해 보다 정확도를 높이고자 한다. 마지막으로 본 연구의 구 재배열 모델은 단어 정렬과 구문 구조 분석결과만으로 자동으로 학습되며, 디코딩 과정에서 기존의 구 번역 모델, 언어 모델과 통합되어 동적으로 동작한다.
이 모델을 검증하기 위해 본 연구에서는 문법적으로 거리가 먼 3가지의 서로 다른 언어 쌍인 영어-한국어, 영어-중국어, 중국어-한국어를 대상으로 다양한 실험을 실시하였다. 먼저 구 재배열의 정확도 실험 결과 특히 원거리 구 재배열에서 높은 정확도를 보여주었다. 그리고 제안하는 모델을 사용하여 기계 번역을 수행한 결과 3가지 언어 쌍에서 전반적인 성능 향상을 보여주었고 특히 문장이 길어 질 수록, 언어적 차이가 클 수록 성능 향상의 폭이 커짐을 확인할 수 있었다.
,韩语论文范文,韩语论文网站 |