합성 유한상태전이기를 이용한 two-level 한국어 형태소 해석 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-28
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

이 논문은 자연 언어 처리를 위한 합성 유한 상태 전이기 CFST를 구현하고 CFST를 이용하여 two-level 한국형태해석 시스템을 구축하였다. FST는 출력을 가지는 FSA로 임의의 문자라는 특별한...

이 논문은 자연 언어 처리를 위한 합성 유한 상태 전이기 CFST를 구현하고 CFST를 이용하여 two-level 한국형태해석 시스템을 구축하였다. FST는 출력을 가지는 FSA로 임의의 문자라는 특별한 의미의 심볼을 가진다. FST의 임의의 문자는 입력심볼을 제한할 수 없는 자연 언어 처리에 필요한 표현이 가능하게 하지만 FST들의 연산에 전통적인 알고리즘을 적용할 때 연산에 참여하는 두 FST사이의 임의의 문자를 같은 문자를 가지도록 조정해야 한다. 이 논문에서는 임의의 문자를 처리하는 방안을 제시하고 전통적인 알고리즘을 사용하여 FST의 기본연산이 가능하도록 하였다. 자연 언어 처리에서 사용하는 대표적인 FST인 xfst의 문법과 표현식을 그대로 사용할 수 있도록 하기 위해서 xfst의 연산자 중에 문서화되어 있지 않은 단일 삽입과 마킹 연산자의 표현식을 제안했다.
Kimmo에 의해서 제안된 언어 독립적인 형태소 모델인 two-level형태론은 형태소 분석을 위한 자원과 형태소 분석을 분리하여 형태소 분석기를 사용하고자 하는 사용자가 형태소 분석 결과를 원하는 데로 바꾸기 용이하다. 그러나, 교착어의 성격을 가지는 한국어에 대한 형태소 분석의 경우 Kimmo모델에서 형태소 분석 후보가 과생성되어 성능적인 측면에서 약점을 가진다. 따라서, 성능이 중요한 문제로 부각되던 한국어 형태소 분석은 독립적인 모델보다는 언어 종속적인 모델이 선호되어 왔다. Lauri의 어휘 전이기와 two-level규칙을 합성하여 원형복원에 어휘정보를 사용할 수 있도록 하는 모델은 교착어인 한국어와 같은 경우에도 원형 복원 후보를 줄일 수 있기 때문에 성능이 떨어지는 문제를 보완할 수 있다.
이 논문은 Lauri모델을 구현하기 위해서 합성 가능한 유한 상태 전이기(CFST, Compositional Finite State Transducer)를 구현하였다. CFST를 이용하여 한국어 형태소 분석 시스템을 구축하기 위해서 한국어 용언의 원형 복원을 5단계의 중간층을 두어 일관되게 표현하고 하나의 FST로 합성하여 사용할 수 있도록 하였다. 언어 독립적인 모델로서의 장점을 확인하기 위해서 단일 어절 중심의 형태소 분석 시스템을 구축한 후 정규식을 사용하여 문장 단위 형태소 분석과 본 용언과 보조 용언을 하나의 단위로 묶어 인식할 수 있도록 수정할 수 있었다.
향후 연구 과제로는, 이 논문의 CFST는 Lauri모델의 형태소 분석 시스템 구축을 가능하게 하지만, 편리한 형태소 분석 구축 환경을 위한 사전 편집기와 같은 응용 프로그램이 개발이 필요하다. 또한 어휘 전이기로 해석된 사전에 새로운 어휘를 추가하는 과정은 어휘 사전을 새로 번역해야 하는 단점을 가진다. 어휘 전이기에 새로운 어휘를 추가할 수 있도록 하는 방법에 대한 연구가 필요하다.

A Finite State Transducer (FST) is a special form of Finite State Automaton (FSA) with an input and an output. In the Natural Language Processing (NLP), FSTs are often used for morphological analyzing, part of speech tagging and partial parsing. Here,...

A Finite State Transducer (FST) is a special form of Finite State Automaton (FSA) with an input and an output. In the Natural Language Processing (NLP), FSTs are often used for morphological analyzing, part of speech tagging and partial parsing. Here, FSTs have a special symbol, called the ANY symbol, which includes all symbols that are not included in the basic FST. The ANY symbol permits to enable simple expression for the FST.
However, it makes difficult for the operation such as concatenation, union, intersection and composition between two FSTs, because the ANY symbols of them represent different symbols each other. Therefore, in order to make use of the existing algorithms, it is required to let the ANY symbol of two FSTs represent the same symbol. To do this, we propose the algorithm of processing the ANY symbol.
This thesis deals with an implementation of the Compositional Finite State Transducer (CFST) and an application to the two-level Korean morphological analysis to show the effectiveness of the CFST. XFST (Xerox Finite State Transducer) developed by Xerox Corporation is the well known FST for morphological analysis. Even if it defines many useful operators for NLP, some algorithms or expressions of operators, such as single insertion, marking and relative minus are not opened yet. So we propose the expression of single insertion and marking in this thesis.
Most of natural languages build a surface form in surface level based on the word formation rules using a lexical form in lexical level. A surface form appearing with the concatenation of lexical form can be resulted in alternation, deletion and insertion of the lexical form in part. Morphological analyses are to find out a lexical form from a surface from by applying the rules of root form recognition. In our work, CFST compile FSTs from the root form recognitions rules, and compose a single FST.
Two-level morphological analysis proposed by Kimmo is a language independent model that is suitable to recognize root form. However, the Kimmo model generates many lexical form candidates from a surface form because it does not make use of lexical information. Many works pointed out that applying two-level morphological was not suitable for Korean language which is an agglutinative language because it generates too many candidates.
As a conclusion, in our work, CFST tries to compose the root form recognition rules and the lexical information in order to reduce candidates. In addition, CFST compile the word formation rules by a lexical transducer to compose the root form recognition and the lexical information. The lexical transducer and the root from recognition rules are composed into a single FST for morphological analyses by CFST.

韩语论文题目韩语毕业论文
免费论文题目: