정보검색(information retrieval) 시스템의 궁극적인 목적 중 하나는 질의어(Query)로 표현된 사용자의 의도를 만족시키는 모든 적합한 문서들을 찾아주는 것이다. 하지만, 단일 언어(monolingual)로 쓰...
정보검색(information retrieval) 시스템의 궁극적인 목적 중 하나는 질의어(Query)로 표현된 사용자의 의도를 만족시키는 모든 적합한 문서들을 찾아주는 것이다. 하지만, 단일 언어(monolingual)로 쓰인 문서를 검색하는 전통적인 정보검색 시스템은 최근 인터넷의 특성에 부합하지 않는 측면이 있다. 교차언어 정보검색(Cross-language information retrieval) 시스템은 사용자 질의어에 적합한 다국어 문서(multilingual document)를 제공할 수 있다는 장점을 가진다. 교차언어 정보검색 시스템의 구현은 기본적으로 질의어 번역 방법을 많이 사용하고 있다. 이와 같이, 원본 언어로 표현된 질의어를 대상 언어로 번역하기 위해서는 번역을 위한 사전이나 혹은 병렬 말뭉치(parallel corpus)와 같은 자원이 필수적이다. 그러나, 기존에 구축되어 있는 세종 병렬 말뭉치와 같은 한국어가 포함된 병렬 말뭉치는 양이 적고, 특정 영역을 중심으로 구성되었거나, 저작권 및 지적 소유권 등의 문제가 존재하고 있다.
본 논문은 교차언어 정보검색 시스템의 질의어 번역에서 가장 중요한 자원으로 활용되는 병렬 말뭉치의 품질 향상을 통한 번역 성능 개선에 목표를 두고 있다. 하지만, 병렬 문장으로 구성된 병렬 말뭉치를 구축하는 작업은 시간과 비용이 많이 소요되는 작업이다. 본 논문은 효과적인 병렬 말뭉치 구축을 위해서 대용량의 온라인 백과사전인 위키피디아(Wikipedia)의 비교 말뭉치(comparable corpus)내의 존재하는 문장들을 대상으로 다양한 언어 자원을 이용한 문장 간 유사도 계산 방법을 제안한다. 이를 위해, 위키피디아로부터 언어 간 링크를 통한 문서 제목들로 구성된 위키 사전(Wiki dictionary)과 웹으로부터 구축한 사전 예문 쌍을 통한 번역 확률을 이용하여 문장 유사도 계산을 수행하고, 병렬 문장으로 판단되는 문장들을 추출하였다. 따라서, 양질의 병렬 말뭉치를 구축하고 이를 활용하여 질의어 번역의 개선을 통해 교차언어 정보검색의 성능을 향상시킨다.
본 논문에서는 본 논문에서 제안하는 자동 병렬 문장 추출 기법의 정확도를 테스트하고, 구축된 양질의 병렬 말뭉치를 질의어 번역에 적용하는 교차언어 정보검색의 성능 비교를 위해 NTCIR-5 데이터를 이용하여 영어-한국어 간의 성능을 테스트하였다. 그 결과, 본 논문에서 제안한 방법으로 구축한 병렬 말뭉치를 이용한 질의어 번역이 기존에 구축된 병렬 말뭉치인 세종 병렬 말뭉치를 이용한 질의어 번역보다 더 높은 성능을 보였다.
,韩语论文,韩语论文网站 |