The goal of word sense disambiguation(WSD) in natural language processing is to determine which sense of an ambiguous word is invoked in a particular use of the word. It is an intermediate process in many natural language processing tasks such as mach...
The goal of word sense disambiguation(WSD) in natural language processing is to determine which sense of an ambiguous word is invoked in a particular use of the word. It is an intermediate process in many natural language processing tasks such as machine translation and information retrieval.
This proposes a new method for automatic word sense disambiguation based on Korean Word. The basic assumption of this suggested method is that contextual words provide strong and consistent clues to the sense of a ambiguous word. Relevance between the ambiguous words and its contextual words is used to disambiguate the sense of the target word.
In this , relevance between the ambiguous words and its contextual words is calculated by likelihood ratio. In turn, the likelihood ratio between the ambiguous words and its contextual words is obtained from the related words of the target word in Korea Word and their co-occurrence extracted from a large unannotated corpus. A word sense having maximum likelihood ratio with contextual words is selected as right sense in the given sentence.
Ten ambiguous nouns have been disambiguated by the suggested method experiment. The result of experiment shows that the model obtains 81.25% average accuracy, which is 26.95% higher than those of Lesk's dictionary-based disambiguation.
본 논문에서는 한국어 어휘의미망 KorLex를 이용한 비감독 어의 중의성 해소 기술을 제안하였다.
본 논문에서는 중의성 어휘의 의미 구분을 위해 어휘 간의 연관 관계를 통계적으로 판단하고...
본 논문에서는 한국어 어휘의미망 KorLex를 이용한 비감독 어의 중의성 해소 기술을 제안하였다.
본 논문에서는 중의성 어휘의 의미 구분을 위해 어휘 간의 연관 관계를 통계적으로 판단하고자 KorLex를 이용하여 의미별 관계어와 주변 문맥에 함께 나타난 공기 어휘와의 연관 관계를 판단하였다.
본 연구의 의의는 다음과 같다. 첫째, 한국어 어휘의미망인 KorLex를 활용하여 의미 부착 말뭉치가 없더라도 통계 정보를 이용하여 어의 중의성 해소를 수행하였다. 둘째, 최소한의 정보(단일 어휘 출현 빈도, 공기 출현 빈도, 사전 뜻풀이)만을 이용하여 기존의 지식 기반 어의 중의성 해소 방법보다 더 좋은 성능을 보였다.
앞으로 연구되어야 할 것은 다음과 같다. 첫째, 다른 평가데이타를 이용하여 다양한 중의성 어휘에 대해 평가함으로써 시스템의 신뢰성을 더 높여야 할 것이다. 둘째, 통계정보와 어휘 간의 연관계수를 이용하여 어의를 통계적으로 구별해 줄 수 있는 유의미 영역의 어휘를 미리 구하여 사전으로 저장함으로써 어의 중의성 해소 처리 속도를 높여야 할 것이다. 셋쩨, 자료 부족 문제로 말미암아 통계 정보로 해결되지 않는 분석을 위해 선택 제약과 같은 전처리 작업을 수행하는 방안을 연구하여야 할 것이다.
,免费韩语论文,韩语论文范文 |