구문분석은 문장 안에서 문장성분들의 관계를 찾는 과정이다. 품사태깅과 더불어 구문분석은 자연어처리 분야에서 필수 단계 중 하나이다. 응용 프로그램에서 언어 분석에 대한 요구가 증...
구문분석은 문장 안에서 문장성분들의 관계를 찾는 과정이다. 품사태깅과 더불어 구문분석은 자연어처리 분야에서 필수 단계 중 하나이다. 응용 프로그램에서 언어 분석에 대한 요구가 증가하면 할수록 구문분석에 대한 요구는 증가한다.
예를 들어 기계번역에서 처음에는 단순히 단어들의 정렬을 통해서 번역을 시도하였으나 그 성능이 만족스럽지 못하여 구문분석 정보를 이용하여 문장에서 각 문장 성분들 간의 관계 정보를 이용하여 번역을 시도하고 있다. 또한 인터넷 문서에서 유용한 정보를 추출할 경우에도 단순히 문자열 패턴을 이용하는 것이 아니라 구문분석 결과를 이용하여 좀 더 정확한 추출을 할 수 있다.
이 경우에 반드시 필요한 것이 처리 속도, 안정성, 그리고 성능이다. 품사태깅과는 달리 구문분석은 각 문장 성분들 간의 관계를 조사하기 위해서 일반적으로 O(n3)의 처리 시간이 소요되기 때문에 문장이 길수록 속도는 더욱 느려지게 된다.
또한, 구문분석은 문장 전체에 대한 분석결과를 출력하므로 문장이 복잡해질수록 완전한 분석결과를 출력하는 것이 힘들어진다. 더욱이 인터넷 문서와 같이 비문이 많은 문장들에서는 분석을 성공하지 못하고 시스템이 죽어버리는 경우도 많이 발생한다. 성능은 모든 시스템에서 중요하지만 특히 구문분석에서는 구문분석의 오류가 응용 프로그램에 직접 영향을 미치기 때문에 더욱 중요하다.
영어권에서는 구문분석 연구가 성숙하여 구문분석 프로그램을 사용하여 다양한 연구 결과를 보이고 있다. 그러나 한국어의 경우는 다양한 연구에서 사용할 수 있는 고속, 고성능 구문분석기가 존재하지 않는다. 따라서 영어권에 비해서 사용할 수 있는 자원이 줄어들어 연구의 깊이와 결과가 좋지 못한 상황이다.
본 연구에서는 정문뿐만 아니라 인터넷 문서와 같이 비문이 많은 환경에서도 고속, 고성능 결과를 보이는 구문분석기를 제안한다. 본 연구에서는 일반적인 구문분석에서 사용하는 구성 성분들 간의 결합을 통한 구문분석을 하지 않아 사용하는 메모리가 작고 속도가 매우 빠른 장점을 가지고 있다. 또한 어절 구문태그와 CRFs(Conditional Random Fields)를 사용하여 고성능의 한국어 구문분석기를 구현하였다.
,免费韩语论文,韩语论文范文 |