오류 유형별 후처리를 통한 한국어 품사 부착 성능향상 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-28
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

The Part-of-Speech(POS) tagging is a task assigning proper POS tag to the given word. As an agglutinative language, Korean's spacing unit - Eojeol - consists of a serise of pairs of morpheme and POS tag. Therefore, the Korean POS Tagging task can be d...

The Part-of-Speech(POS) tagging is a task assigning proper POS tag to the given word. As an agglutinative language, Korean's spacing unit - Eojeol - consists of a serise of pairs of morpheme and POS tag. Therefore, the Korean POS Tagging task can be divided into two sub parts. The one is the morphological analysis and the other is the POS tagging. The morphological analysis is a task which analyzes all possible series of pairs of morpheme and POS tag. The POS tagging is a task which assigns proper serise of pairs of morpheme and POS tag from the morphological analysis result. Thus, Korean POS tagging is more difficult and ambiguous than English POS tagging. Moreover, because POS tagging is essential to understand natural language, it is applied to most natural language processing applications such as parsing, machine translation, information retrieval, and question answering. Therefore, ths POS tagging accuracy significantly affects other applications' accuracy. State-of-the-art of Korean POS tagger shows 95\% accuracy. It is high accuracy. However, because POS tagger's accuracy significantly affects other applications' performances, 5\% error rate should be improved. During error analyzing, I found that certain POS tags are highly ambiguous and they make almost error. Moreover, they have typical error patterns. In addition to typical error patterns, large POS tagged corpus is recently constructed. It allows classifiers to be trained with large training data. It also increases classifier accuracy significantly. In order to improve POS tagging accuracy, this thesis proposes two post-processing methods using characteristics which I mentioned above. First proposed method trains classifiers using wider contexts than state-of-the-art POS tagger. these classifiers use fetures which are extracted from large POS tagged corpus. Second proposed method trains highly ambiguous POS tag pair classifiers. Each classifiers classifies POS tag between certain highly ambiguous POS tag pair. Thus, classifiers assigns proper POS tag to a given word with higher accuracy than state-of-the-art POS tagger and improve POS tagging accuracy. Each proposed method reduces 6.86\%(95.251\% → 95.577\%) and 13.11\%(95.251\% → 95.874\%) error rate measured by eojeol accuracy. Combining two proposed method, result shows 16.91\%(95.251\% → 96.054\%) error rate reduction measured by eojeol accuracy.

한국어 형태소 분석은 주어진 문장에 대하여 문장을 구성하는 각 어절에 대응하는 가능한 모든 형태소, 품사열을 밝히는 작업이며, 품사 부착은 형태소 분석에서 나온 가능한 모든 형태소 ...

한국어 형태소 분석은 주어진 문장에 대하여 문장을 구성하는 각 어절에 대응하는 가능한 모든 형태소, 품사열을 밝히는 작업이며, 품사 부착은 형태소 분석에서 나온 가능한 모든 형태소 분석 후보들 중 주어진 문장에 대하여 가장 적절한 형태소, 품사 열을 결정하는 것이다. 또한 한국어는 교착어(agglutinative language)로서 하나 이상의 형태소가 결합하여 어절을 이룰 수 있기 때문에 중의성이 매우 높다. 이러한 한국어 형태소 분석 및 품사 부착은 자연어를 이해하여 처리하는데 있어서 가장 기본적인 기술이어서 구문 분석, 기계번역, 정보 검색, 질의 응답 등 다른 모든 자연어처리 시스템에 사용된다. 따라서 품사 부착의 오류는 다른 상위 시스템에 전파되기 때문에 자연어처리 시스템의 성능에 영향을 미치는 부분이다. 그러나 현재 한국어 품사 부착의 성능은 어절 단위로 95\% 수준이며, 높은 수준이기는 하나 품사 부착이 다른 자연어처리 시스템에 미치는 영향을 고려한다면 성능을 더욱 향상할 필요가 있다. 품사 부착의 오류를 분석하면 일부 중의성이 높은 품사에서 많은 오류가 발생하며 이들 품사가 전체 오류 중 대부분을 차지하고, 유형은 거의 정해져 있다. 또한 최근 대량의 품사 부착 말뭉치의 구축으로 대량의 학습 집합을 얻기 쉬워졌다. 본 논문에서는 한국어 품사 부착의 성능을 향상하기 위하여 위에서 언급한 두 가지 특징을 이용한 두 가지 후처리 방식을 제안한다. 첫째는 기존 자동태거보다 넓은 문맥 자질을 이용한 분류기를 대량의 학습 집합을 이용하여 학습시킨 후 다른 자동태거의 결과에 후처리 하여 성능을 향상한다.둘째는 높은 중의성으로 인하여 낮은 정확률을 보이는 품사쌍을 대상으로 각 품사쌍에 적합한 자질을 이용하여 높은 정확률의 분류기를 학습시킨 후 다른 자동태거의 결과에 적용하여 성능을 향상한다. 제안하는 두 가지 후처리 방식은 어절 단위 평가로 각각 6.86\%(95.251\% → 95.577\%)와 13.11\%(95.251\% → 95.874\%)의 오류 감소율을 보였으며, 두 방식을 모두 적용하였을 경우 16.91\%(95.251\% → 96.054\%)의 오류를 감소하였다.

韩语论文题目韩语论文网站
免费论文题目: