개체명 인식(Named-Entity Recognition)은 정보 추출(Information Extraction)의 부과업(Subtask)으로 문서에서 개체명(Named-Entity)을 찾아 추출하고, 인명, 기관명, 지명, 시간 표현, 날짜 표현 등의 미리 정의... 개체명 인식(Named-Entity Recognition)은 정보 추출(Information Extraction)의 부과업(Subtask)으로 문서에서 개체명(Named-Entity)을 찾아 추출하고, 인명, 기관명, 지명, 시간 표현, 날짜 표현 등의 미리 정의된 고유한 범주로 분류하는 과정이다. 개체명 인식기에서 추출된 개체명 정보는 자연언어처리의 전 분야에서 다양하게 사용되고 있다. 기존에 한국어 개체명 인식 연구 방법은 형태소(Morpheme) 기반 개체명 인식 방법과 음절(Syllable) 기반 개체명 인식 방법이 주로 연구되어 왔다. 형태소 기반 개체명 인식은 문서를 형태소 분석 과정을 거쳐 분해한 결과를 사용하여 개체명을 분석하는 방법이고, 음절 기반 개체명 인식은 각 음절에 개체명 레이블을 부착하는 방법이다. 하지만 형태소 기반 개체명 인식은 형태소 분석 과정에서 오류가 캐스케이딩(Cascading)되는 문제가 발생하여 실제 사용 환경에서 성능이 낮은 것으로 알려져 있다. 음절 기반 개체명 인식은 언어학 정보를 사용할 수 없다는 문제가 있다. 또한, 단어 경계 분할을 개체명 분류와 동시에 진행하기 때문에 성능 향상에 한계가 있다. 본 연구에서는 한국어 음절 기반 개체명 인식기의 성능을 향상 시키는 시스템을 제안한다. 제안하는 시스템은 두 가지로 구성된다. 첫 번째는 음절 bi-gram 단위로 개체명 코퍼스를 구축하고 임베딩 단위를 bi-gram을 사용하는 방법이다. 두 번째는 음절 bi-gram 임베딩에 어절 어두 정보를 반영하여 결합 임베딩하는 방법이다. 본 논문에서는 ‘2016 국어 정보처리시스템 경진대회’ 코퍼스를 사용하여 제안한 방법의 성능을 검증하였다. 실험 결과, 제안하는 방법은 음절 기반 개체명 인식의 성능을 상당히 향상시키는 것을 확인 할 수 있었다. 또한, 해당 결과를 형태소 기반 개체명 인식 방법과 비교한 결과 유사한 성능을 보여, 제안하는 방법이 효과적인 것을 확인하였다. ,韩语论文题目,韩语论文 |