이미 국외에서는 Word과 같은 의미적 언어자원을 활용한 유사 문서 검색이나 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 그러나 국내에서는 아직 Word과 같은 언어자원이 부족...
이미 국외에서는 Word과 같은 의미적 언어자원을 활용한 유사 문서 검색이나 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 그러나 국내에서는 아직 Word과 같은 언어자원이 부족하여, 이를 바탕으로 한 문서 유사도 측정 방법이나 그 결과를 활용하는 방법에 관한 연구가 미흡하다.
기존에 국내에서 사용된 문서 유사도 측정법들은 대부분 문서 내에 출현하는 어휘들의 의미에 기반하기 보다는, 어휘들의 단순 매칭이나 빈도수를 이용한 가중치 측정법, 또는 가중치를 이용한 중요 어휘 추출 방법들이었다. 이 때문에, 기존의 유사도 측정법들은 문서의 문맥정보를 포함하지 못하고, 어휘의 빈도를 구하기 위하여 대용량의 문서집합에 의존적이며, 또한 특정 개념(의미)를 다른 어휘로 표현하거나, 유사/관련 어휘가 사용된 유사 문선에 대한 처리가 미흡하였다.
본 논문에서는 이에 착안하여 한국어 어휘 의미망인 U-WIN과 문맥에 사용된 어휘들의 Overlap 정보를 사용하여, 단순히 어휘에 기반하지 않고, 기본적인 문맥정보를 활용하며, 어휘의 의미에 기반을 둔 문서 유사도 측정법을 제안한다.
본 논문의 실험에서는 제안한 문서 유사도 측정법의 신뢰성을 입증하기 위해 WSD정확율 측정 실험과 유사 문서 검색 실험을 수행하였다. 전문용어를 대상으로 한 WSD 정확율 측정 실험에서는 72%의 정확율을 보였으며, 유사 문서 검색 실험에서는 국내에서 일반적으로 많이 쓰이는 어휘 매칭 유사도 측정법과 Cosine 유사도 측정법보다 더 좋은 성능을 보였다.
Many researches in foreign country for finding similar texts are in progress using the semantic language resources like Word. However, in the domestic situation, the language resources like Word are still insufficient and so, researches for find...
Many researches in foreign country for finding similar texts are in progress using the semantic language resources like Word. However, in the domestic situation, the language resources like Word are still insufficient and so, researches for finding similar texts methods based on it or the methods for utilizing it are insufficient, too.
Most of the previous domestic researches for Similar Documents Retrieval used only the words that occur in documents. In this , we propose the semantic based method of Similar Documents Retrieval by determining the meaning of the words, using semantic similarity measurement with U-WIN.
,韩语毕业论文,韩语毕业论文 |