구문분석은 문장 안에서 성분들의 관계를 찾는 과정이다. 자연어처리 분야에서 필수적인 단계 중 하나로서 처리속도, 성능, 강건함이 주요한 요소가 된다. 하지만 한국어 구문분석 연구는 ...
구문분석은 문장 안에서 성분들의 관계를 찾는 과정이다. 자연어처리 분야에서 필수적인 단계 중 하나로서 처리속도, 성능, 강건함이 주요한 요소가 된다. 하지만 한국어 구문분석 연구는 다른 언어 연구에 비해 자원부족과 같은 문제로 연구 깊이와 결과가 좋지 못한 상황이다.
본 논문에서는 처리속도, 성능, 강건함을 가지면서 기존의 시스템에 비해 문장 성능을 높이기 위한 문장 구조 자질을 제안한다. 기존에는 다단계 구단위화(Cascaded Chunking) 방법을 사용하여 강건함을 획득하였고 어휘를 사용하지 않은 자질 학습으로 모델의 사이즈가 작으며, 고속으로 처리할 수 있었다.구문분석은 자연어처리의 기본 시스템이 되는 결과이기 때문에 상위 응용프로그램에서 적절한 데이터를 추출하려면 성능이 중요하다. 구문분석의 결과를 이용하게 되면 좀더 적은 데이터를 사용하여 사용자에게 맞는 데이터를 가공할 수 있기
구문분석의 성능은 어절(또는 형태소)성능과 문장 성능으로 평가한다. 문장의 성능을 높이기 위해서는 문장을 이루는 모든 어절의 아크가 올바르게 연결되어야 한다.
문장의 길이가 길어질수록 문장의 성능이 떨어지는데 이것은 문장의 큰 구조를 파악하기 힘들기 때문이다. 특히 트랜지션 기반의 구문분석 방법은 지역적 학습 방법과 오류전파 문제가 있으므로 그래프 기반 구문분석에 비해 문장구조 성능이 낮음을 기술하였다.
본 논문에서는 문장 성능을 향상시키기 위해 문장구조 자질을 적용하였다.
문장구조 자질은 문장에서 주요 요소가 되는 어절을 정의하는 것으로 자질로 정의하여 분석을 하는 방법이 성능향상에 도움을 준다는 것을 확인하였다. 즉, 지역적 학습 모델을 이용하여 분석을 하지만 문장구조 자질을 고려하여 전체 문장 구조 정보를 이용하는 것과 같다.
이외에도 기존 비어휘 다단계 구 단위화 시스템의 오류분석을 통하여 기존 문제점을 파악하고 구 패턴 묶음, 기능어 형태소 자질, 공기정보 자질을 추가하여 성능향상을 이룰 수 있었다.
또한 문장 구조 자질을 시스템 내부에서 정의하여 분석 시 성능 향상이 되는 것뿐만 아니라 정답 문장 구조자질을 이용하면 성능이 큰 폭으로 증가하는 것으로 보아 잠재적인 성능 향상을 확인 할 수 있다.
그것을 바탕으로 문장 구조 설정 성능 향상을 위해 넓은 문맥자질로서 학습한 모델을 실험하였다. 이로서 문장 구조 자질이 문장 성능 향상에 큰 영향을 주는 것을 확인 할 수 있다.
향후 연구로는 문장 구조 자질과 분석 가이드 방법을 통합한 모델로서 구문분석 성능 향상 연구와 확장 문장 구조 자질을 위한 효과적인 학습 방법을 추가적으로 연구할 예정이다.
또한 KIB(Korean Language Information Base) 코퍼스를 사용하여 평가하고 다른 시스템과 직접 평가를 해 볼 예정이다. KIB는 의존구조 구성단위가 ‘형태소’이므로 이를 ‘어절’단위로 변경하여야 한다. 그리고 세종코퍼스와 달리 구문태그의 기능태그가 없기 때문에 KIB 코퍼스에 맞는 자질을 추가적으로 연구할 예정이다.
,韩语论文,韩语毕业论文 |