Compound noun analysis in Korean is considered to be a difficult problem because of frequent omissions of delimiting spaces. A lot of research on this problem has been done but the solution has not been produced yet. In this , we propose a new me... Compound noun analysis in Korean is considered to be a difficult problem because of frequent omissions of delimiting spaces. A lot of research on this problem has been done but the solution has not been produced yet. In this , we propose a new method that can even analyze well the nominal compounds with foreign unknown words.The biggest problem in nominal compound analysis is the huge number of analysis candidates. Thus the key technique to be developed is how to select the best candidate. To solve this matter we use a technique that uses statistical information which consists of lexical bigrams of morphemes and the syllable bigrams in case of foreign unknown words.Data sparseness occurs even though statistical information was acquired from a large tagged corpus. This is handled using back-off smoothing techniques. The schemes to reduce the number of candidates and adjust the probabilities related with one syllable nouns were explored. The experiments revealed that the system exploiting the proposed techniques achieves the performance of 99.39% accuracy better than 98.74%, the best of previous research results.
한국어에서는 명사 사이의 띄어쓰기가 자유롭기 때문에 복합명사 분해는 매우 어려운 문제로서 계속해서 연구가 진행되고 있지만 아직 완전한 해결 방법은 나오지 않고 있다. 본 논문에서... 한국어에서는 명사 사이의 띄어쓰기가 자유롭기 때문에 복합명사 분해는 매우 어려운 문제로서 계속해서 연구가 진행되고 있지만 아직 완전한 해결 방법은 나오지 않고 있다. 본 논문에서는 백오프 통계 정보를 이용하여 등록어들로 구성된 복합명사와 외래어 미등록어가 포함된 복합명사를 잘 분해하는 기술에 대하여 연구하였다. 복합명사 분해 문제에서 가장 문제가 되는 것은 주어진 복합명사에 대하여 수많은 분석 후보가 존재한다는 점이다. 이중에서 가장 좋은 후보를 선택하는 기술이 연구의 핵심적인 사항이 되며 이의 해결을 위해서 본 연구에서는 통계 정보에 기반한 기법을 이용하였다. 통계 정보는 형태소 사이의 어휘 바이그램 정보를 이용하였고, 미등록어의 경우 음절 바이그램 정보를 이용하였다. 대량의 품사 태깅 말뭉치에서 통계 정보를 추출하였지만 데이터 부족 문제가 발생하게 되는데, 이 문제를 해결하기 위해 백오프(back-off) 평탄화(smoothing) 기법을 이용하였다. 형태소 분석기에서 나오는 분석 후보의 수를 줄이기 위한 제한 조건을 연구하였고, 1음절 명사로 인한 오류를 줄이기 위해 확률을 조정하는 기법을 제안하였다. 실험 결과 가장 좋은 기존 연구 결과인 98.74%보다 더 높은 99.39%의 정확도를 갖는 시스템을 개발할 수 있었다.
참고문헌 (Reference)
활용도 분석
View
Usage
Share
이 자료의 주제 내 활용도 Top
|