Compound noun analysis in Korean has many problems in information retrieval, machine translation, spelling checking because spaces may be omitted between morphemes. A lot of research on this problem has been done. It was shown that good performance ca... Compound noun analysis in Korean has many problems in information retrieval, machine translation, spelling checking because spaces may be omitted between morphemes. A lot of research on this problem has been done. It was shown that good performance can be achieved for compound nouns which consist of only known words. But that is not the case for compound nouns containing unknown words. In this , we propose a new method that performs well for compound nouns with Korean or foreign unknown words.First of all, we search an unknown word within a compound noun and classify it into Korean and foreign unknown word. For each classification result, it decides whether it is a possible unknown word. Furthermore the number of analysis candidates is reduced by letting a candidate to kill another. Finally, the best candidate among remaining candidates is selected by using statistical information about lexical bigrams of morphemes in nominal compounds.The experiments revealed that the proposed techniques achieve the performance of 99.33% accuracy for compound nouns containing only known words, 94.33% for those with unknown words, 98.82% for all of the compound nouns combined.
한국어에서 복합명사는 띄어쓰기를 원칙으로 하지만 일반적으로 붙여 써도 무방하다. 따라서 정보 검색, 기계 번역, 맞춤법 검사 등 다양한 분야에서 복합명사로 인한 많은 문제점이 발생한... 한국어에서 복합명사는 띄어쓰기를 원칙으로 하지만 일반적으로 붙여 써도 무방하다. 따라서 정보 검색, 기계 번역, 맞춤법 검사 등 다양한 분야에서 복합명사로 인한 많은 문제점이 발생한다. 이를 해결하기 위한 다양한 연구가 진행되고 있다. 하지만 지금까지의 연구가 등록어만으로 구성된 복합명사에 대해서는 좋은 성능을 보이는 반면 미등록어가 포함된 복합명사에 대해서는 만족할 만한 결과를 제시하지 못하고 있다.본 논문에서는 이를 해결하기 위한 복합명사 분석 기법을 제시한다. 특히 한국어 및 외래어 미등록어가 포함된 모든 종류의 복합명사에 대한 성능향상을 목표로 한다. 이를 위해 미등록어가 포함된 분해 후보에 대해서 미등록어를 한국어 및 외래어 미등록어 중 어느 것인지 분류하고, 분류에 따라 미등록어로서의 가능 여부를 판단하여 제거하는 기법을 개발하였다. 또한 후보 상호간의 제거기법을 도입함으로써 분해 후보의 수를 효과적으로 감소시킬 수 있도록 하였다. 그리고 남은 후보들에 대해서는 품사가 부착된 말뭉치에서 추출한 형태소간의 어휘정보에 기반하여 정답 후보를 선택하였다.실험을 통하여 본 논문에서 제시한 기법을 확인한 결과 등록어만으로 구성된 복합명사에 대해 99.33%를 한국어 및 외래어 미등록어가 포함된 복합명사에 대해 94.33%를 전체 복합명사에 대해 98.82%의 높은 성능을 나타냈다. 결과적으로 본 시스템은 등록어만으로 구성된 복합명사도 잘 처리하면서 미등록어가 포함된 복합명사에 대해서도 만족할 만한 성능을 보임을 확인하였다.
참고문헌 (Reference)
활용도 분석
View
Usage
Share
이 자료의 주제 내 활용도 Top
|