본 논문은 주어-목적어-동사(SOV) 어순의 언어에 적합한 새로운 Open IE 시스템을 제안한다. Open IE란 새로운 관계 추출 패러다임으로 추출하고자 하는 관계에 대한 정의 없이, 자신의 말뭉치를 ... 본 논문은 주어-목적어-동사(SOV) 어순의 언어에 적합한 새로운 Open IE 시스템을 제안한다. Open IE란 새로운 관계 추출 패러다임으로 추출하고자 하는 관계에 대한 정의 없이, 자신의 말뭉치를 통해 하나의 데이터로 처리되는 처리 과정을 만들고 거대한 관계 튜플 집합을 추출하는 시스템을 말한다. 미리 선택된 영역이나 특정 말뭉치들에 맞춰진 적은 수의 관계를 만들어내는 전통적인 정보 추출과 달리, Open IE는 웹 규모의 거대한 말뭉치들을 다룰 수 있도록 무한한 수의 관계들을 만들어 낼 수 있는 기법이다. Open IE는 SVO 언어인 영어에서 주로 연구되어 왔다. SVO 언어에서의 대부분의 관계는 두 개체와 관계구가 개체-관계구-개체 순으로 인접하여 나타난다. 그러나 한국어와 같은 SOV언어에서는 관계가 주로 개체-개체-관계구 순으로 나타나고, 주어와 동사 사이에 다양한 수식어구가 나타나는 언어적 특성을 갖는다. 또한 개체가 관계구로부터 원거리에 나타나는 경우가 흔하여 기존에 영어에서 연구되었던 방법으로 관계를 추출하기에는 어려움이 있다. 이 문제를 해결하기 위해, 본 논문에서는 개체의 술어구를 먼저 인식한 후, 관계를 추출하는 새로운 Open IE 기법을 제안한다. 문장에서 술어구를 먼저 찾고 술어구의 양 옆에 있는 개체를 관계 튜플 후보로 선택하는 기존 방법과 달리 개체를 서술하는 술어구를 먼저 찾음으로써 개체와 관계 구가 멀리 떨어져 있더라도 관계 튜플로 추출 될 수 있게 되었고, 후보 추출 단계에서의 오류 전파도 줄일 수 있었다. 또한 부자연스럽거나 이해 할 수 없는 관계가 추출 되는 것을 줄이고 자연스럽고 정확한 관계를 추출하기 위해 언어모델을 이용한 후처리 방법을 제안한다. 한국어 말뭉치에서 실험을 통해, 제안하는 개체-술어구 쌍 탐지 단계와 언어모델 기반 접근 방법이 모두 관계 추출 성능 개선에 효과가 있음을 보였다. ,韩语论文,韩语论文网站 |