본 논문에서는 Support Vector machine 학습을 이용하는 한국어 개체명 인식 모델을 제안한다. 제안된 모델은 SVM 학습을 개체명 경계 인식 단계와 개체명 의미 인식 단계로 나누어 적용한다.
개체...
본 논문에서는 Support Vector machine 학습을 이용하는 한국어 개체명 인식 모델을 제안한다. 제안된 모델은 SVM 학습을 개체명 경계 인식 단계와 개체명 의미 인식 단계로 나누어 적용한다.
개체명 경계 인식이란 임의의 문장 속에 포함되어 있는 개체명을 찾아내는 작업이다. 한국어는 대소문자를 구분하는 영어나, 문자형 에 대한 정보가 비교적 많은 일본어의 경우에 비해 개체명 대상이 되는 후보를 찾는 것이 수월 하지 않다. 그렇기 때문에 개체명의 대상을 인식 하기 위해서 형태소분석을 통해 얻어진 정보와 단어가 가지고 있는 정보에서 특징뿐만 아니라 주변 문맥의 특징까지 추출하여 학습벡터를 만든다. 만들어진 학습벡터를 이용하여 SVM학습을 적용하면 개체명 대상을 인식하는 개체명 경계 인식 분류기가 생성 된다. 이 분류기를 통해 임의의 문장에서 얻은 개체명 후보들의 개체명 대상 여부를 확인 할 수 있다.
개체명 의미 인식에서는 여러 특징들을 이용하여 SVM 기계학습을 통해 해당하는 의미 범주로 분류된다. 본 논문에서는 분류기의 성능을 좌우하는 특징으로 개체명의 특징, 주변 문맥의 특징, 구문 분석 트리 정보를 사용한다. 이 특징을 학습벡터로 생성하여 SVM기계학습을 통해 개체명 의미 분류기를 생성한다. 이 분류기를 통해 개체명이 어느 범주에 속하는지를 결정한다.
본 논문에서는 실험 데이터로 신문기사를 이용하였고 실험을 통하여 제안된 모델의 개체명 인식 재현율은 86.7%, 재현율 88.1% 그리고 F-measure가 87.4%로 나타났다. 다른 한국어 개체명 인식 연구들과 비교해 봤을 때 다소 작은 차이지만 향상한 결과가 발생하였다.
Named entity recognition (R) is one of the fundamental tasks in natural-language processing (NLP). Named entities are atomic elements in text belonging to predefined categories such as the names of persons, organizations, locations, expressions of t...
Named entity recognition (R) is one of the fundamental tasks in natural-language processing (NLP). Named entities are atomic elements in text belonging to predefined categories such as the names of persons, organizations, locations, expressions of times, quantities, monetary values, percentages, etc. Named entity recognition (R) is the task of identifying such named entities. Therefore, the goal of the named entity recognition is to classify names into some particular categories from text. Automatic information extraction is useful to many problems such as machine translation, information retrieval, question answering and summarization.
In this , we present a robust Korean named entity recognition system based on support vector machine(SVM). We divided the named entity recognition into two levels such as entity boundary recognition and entity semantics recognition.
In the entity boundary recognition, it is necessary to gather information according to Korean characteristics and to make training vectors for support vector machine training. For this, morphological analysis is carried out in this system.
And in the entity semantics recognition, we used morphological analysis and syntax analysis. Based on these analyses and the named entity features, we made training vectors to be applied to the system.
From the experimental results on testing data, we can conclude that our model is better than the models which only use one kind of features. And the experiments on testing data also confirm the above conclusion, which show that our algorithm has consistence on different testing data.
,韩语论文范文,韩语论文范文 |