이 논문에서는 구문론적/형태론적 정보를 요구하는 접속검사 과정 없이 어절 패턴을 이용해 새로운 한국어 형태소 분석기와 품사 태거를 제안한다.
어절패턴을 이용해 우리는 품사 부착 말...
이 논문에서는 구문론적/형태론적 정보를 요구하는 접속검사 과정 없이 어절 패턴을 이용해 새로운 한국어 형태소 분석기와 품사 태거를 제안한다.
어절패턴을 이용해 우리는 품사 부착 말뭉치를 개방어 정보를 제거하여 가상 말뭉치를 변환한다. 여기서 어절 패턴은 개방어의 정보를 제거하여 "~"로 표시하고 활용형은 변화된 것을 모두 포함하여 구성한 어절을 말한다. 이 가상 말뭉치로부터 어절 패턴에 대한 형태 분석 정보 패턴을 모아 어절 패턴 사전을 만든다. 또한, 품사 부착 말뭉치로부터 확률 사전을 만든다.
이렇게 구성한 어절 패턴 사전과 확률 사전을 이용해 형태소 분석 후보를 모두 찾는다. 이 때, 어절 패턴의 특성상 기존의 형태소 분석기 보다 많은 후보가 생성되므로 각 형태 분석 후보들의 확률값으로 빔을 이용해 후보의 수를 줄인다. 만약 이 과정을 통해 후보를 찾을 수 없을 경우, 일반 명사 혹은 고유 명사로 추정한다.
품사 태거에서는 형태소 분석기의 결과를 이용한다. 이 때, 확률값 할당을 함에 있어 어절 패턴 정보를 이용하여 기분석된 확률값을 이용해 할당한다. 이렇게 한 이유는 품사 태거의 처리 속도를 빠르게 하기 위함이다. 최적 품사열을 찾기 위해 본 품사 태거에서는 2차 HMM 모델과 Viterbi 탐색을 이용했다.
21세기 세종 코퍼스를 이용해 본 논문의 형태소 분석기와 품사 태거를 실험한 결과, 형태소 분석기는 약 97% 정도의 정확도를 보였으며, 품사 태거는 93%의 정확도를 보였다.
In this , we propose a new morphological analyzer and part-of-speech tagger for Korean using Eojeol patterns without connectivity check, which needs morphological and syntactic knowledge.
For Eojeol pattern, we translate the annotated corpora in...
In this , we propose a new morphological analyzer and part-of-speech tagger for Korean using Eojeol patterns without connectivity check, which needs morphological and syntactic knowledge.
For Eojeol pattern, we translate the annotated corpora into the virtual corpora that removed open class words from annotated corpora. We define Eojeol pattern as a sequence of morphemes with part-of-speech without open class words. We collect unique patterns from the virtual corpora, then build a Eojeol pattern lexicon. We also make probability lexicon using the annotated corpora.
In morphological analyzer, we generate all of candidates of Eojeol using the Eojeol pattern lexicon and the probability lexicon. We use a beam to prune the lower probability candidates. If we are not able to generate the candidates, we use a unknown guessing which tags common noun or proper noun.
In Part-Of-Speech tagger, we use the morphological analyzer results, but we use pre-calculate probability information about eojeol pattern because the speed up. We use 2nd-order HMM Model and the Viterbi search to select the correct path.
From the result of experiment using the Sejong 21st corpora, we can see the proposed morphological analyzer achieves about 97% correctness, part-of-speech tagger achieves about 93% correctness.
,韩语论文网站,韩语论文范文 |