딥 러닝과 한국어 사전을 이용한 비지도 단어 의미 중의성 해소 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

The research on Word Sense Disambiguation(WSD) that distinguishes the meaning of words in context using computers has been a subject of research in the field of Natural Language Processing(NLP) and has been a subject of interest since the early 1950's...

The research on Word Sense Disambiguation(WSD) that distinguishes the meaning of words in context using computers has been a subject of research in the field of Natural Language Processing(NLP) and has been a subject of interest since the early 1950's, when computer language processing began. Especially, about 30% of Korean vocabularies are identified as homonyms, so it is necessary to resolve the ambiguity of words for automatic translation and parsing. Although Korean studies have been consistently conducted in Korea, there are less number of studies on the Korean language than overseas studies on the English language, deriving statistical rules from supervised learning of small-scale sense tagged corpus, and a mixture of dictionary based approaches. The supervised learning approach has a relatively high performance in terms of WSD. However, there is a great limitation in that it is difficult to obtain or produce high-quality corpus that human beings attach meaning to. Outside of Korea, various unsupervised learning approaches have been studied such as graph-based approach and machine learning. After Word2Vec, which applied Deep learning to text in 2013, has been published, Word Sense Induction(WSI) studies have been conducted to extract the meaning of word by learning and clustering context. However, there has yet to have studies related with WSD using it. In order to overcome the limitation of the supervised learning method, this study attempted to solve the semantic ambiguity of nouns by unsupervised learning of large corpus without a knowledge base. This study also proposed a new method to link WSD, which labels the meaning of words after word sense inference, using a Multi-Prototype Skip-Gram model that extends Word2Vec's Skip-Gram model. The training corpus used in the study consisted of a combination of Korean news articles, Korean Wikipedia, Sejong modern written Korean corpus, and KAIST raw corpus. This study collected the machine-readable dictionary, 'Korean Basic Dictionary' on the web and used it to attach the dictionary meaning. Also, this study used Korean data from the SENSEVAL-2, almost the only open evaluation data of the Korean ambiguity resolution. In this study, sense disambiguation proceeded as follows. After pre-processing all learning documents, context-learning was performed using a multi-prototype Skip-Gram model. The resulting prototypes (meanings of clustering of ambiguous words) were semantic labeling according to the degree of correspondence with the words in the example sentence in Korean Basic Dictionary. Next, each of the evaluation examples was mapped with the prototype in the same manner as the dictionary example mapping, and the dictionary meaning associated with the prototype was tagged as a final meaning. As a result of the experiment, when learning the entire corpus containing more than half of the news articles was performed, the accuracy of semantic attachment was rather improved when the scale was reduced to 1/2 or 1/4. In order to reduce the specificity of the message type called news articles, the proportion of the article inquiry was reduced to ½ and ¼, and as a result, the accuracy rate improved to 71.03% even though the size of corpus was smaller than before. In the word window size experiment, which means the extent of the context of the word in learning, the performance was improved with widening the range of 5, 7, and 10, and the accuracy was 76.91% at the maximum. Finally, in the performance comparison experiment according to the type of POS tag set used in the experiment, cases using only 6 real morphemes were better in the performance than cases using 15 parts including formal morphemes. As a result of the study, this study confirmed that the Deep learning based unsupervised learning method can be applied to WSD. By using the unsupervised learning and machine-readable dictionary with no knowledge base, this study achieved about 10% to 15% higher accuracy than previous unsupervised learning based studies. In addition, by extending Word2Vec, which is easy to use for contextual learning, beyond word sense inference to sense disambiguation research, this study is worth noting that even more objective performance evaluation is possible and it is applicable to various fields such as automatic translation.

컴퓨터를 이용하여 문맥 내에서 단어의미를 구별하는 단어 의미 중의성 해소(Word Sense Disambiguation) 연구는 자연어처리 분야에서 핵심적인 연구 주제이며, 컴퓨터로 언어 처리를 하기 시작...

컴퓨터를 이용하여 문맥 내에서 단어의 의미를 구별하는 단어 의미 중의성 해소(Word Sense Disambiguation) 연구는 자연어처리 분야에서 핵심적인 연구 주제이며, 컴퓨터로 언어 처리를 하기 시작한 초창기인 1950년대부터 많은 관심의 대상이 되어 왔다. 특히 한국어는 어휘의 약 30% 가량이 동음이의어로 파악되고 있어 자동 번역이나 구문 분석 등을 위해 단어의 중의성을 해소하는 것이 반드시 필요하다. 국내에서도 한국어를 대상으로 한 연구가 꾸준히 수행되어 왔지만 영어를 대상으로 한 국외 연구들에 비해 그 개수가 적고, 소규모 의미 부착 말뭉치를 지도 학습해 통계적 규칙을 추출하고 여기에 사전 기반 접근을 혼합한 것들이 많았다. 지도 학습 접근법은 단어 의미 중의성 해소 성능이 상대적으로 우수하지만 사람이 직접 의미를 부착한 양질의 말뭉치는 구하거나 제작이 어렵다는 큰 한계가 있다. 국외에서는 그래프 기반 접근, 기계학습 등 국내에 비해 다양한 비지도 학습 접근법들이 연구되어 왔다. 2013년 딥 러닝을 텍스트에 적용한 Word2Vec이 발표된 후 이를 이용해 문맥을 학습하고 군집화하여 단어의 의미를 추출하는 단어 의미 추론(Word Sense Induction) 연구들이 수행되고 있으나 아직 이를 이용한 단어 의미 중의성 해소 연구는 거의 없는 실정이다. 본 연구는 지도 학습법의 한계를 극복하기 위해 지식베이스가 없이 대량의 말뭉치를 비지도 학습하여 명사를 대상으로 의미 중의성 해소를 시도하였다. 또한 Word2Vec의 Skip-Gram 모델을 확장한 다중 프로토타입(Multi-Prototype) Skip-Gram 모델을 이용하여 단어 의미 추론 이후 사전적 의미를 라벨링하는 단어 의미 중의성 해소까지 연결시키는 새로운 방법을 제안하였다. 연구에서 사용한 학습 말뭉치는 한국어 뉴스기사, 한국어 위키백과, 세종 현대 문어 말뭉치, 카이스트 원시 말뭉치의 병합으로 구성되었으며, 사전적 의미 부착을 위해서 기계가독식 사전인 ‘한국어 기초사전’을 웹에서 수집하여 사용하였다. 또한 성능의 평가에는 거의 유일하게 공개된 한국어 의미 중의성 해소 평가 데이터인 SENSEVAL-2 대회에서의 한국어 데이터를 이용하였다. 본 연구에서 의미 중의성 해소는 다음과 같은 절차로 진행되었다. 우선 학습 문헌들을 모두 정제한 후 다중 프로토타입 Skip-Gram 모델을 이용해 문맥 학습하였다. 그 결과로 얻어진 각각의 프로토타입(중의 단어의 군집화된 각 의미)을 한국어 기초사전의 예문 내의 단어들과 일치하는 정도에 따라 의미 라벨링을 하였다. 다음으로 평가용 예제 각각에 대해 사전 예문 매핑과 동일한 방법으로 프로토타입과 매핑시킨 후 이와 연결된 사전적 의미를 최종 의미로 부착하였다. 실험 결과, 뉴스기사가 절반 이상 포함된 말뭉치의 전체를 학습했을 때는 규모를 1/2, 1/4로 줄여나갈 때 오히려 의미 부착 정확률이 향상되는 모습을 보였다. 뉴스기사라는 문종(文種)의 특수성을 줄이기 위해 기사문의 비중을 1/2, 1/4로 줄인 결과, 이전보다 말뭉치의 규모가 줄었음에도 정확률은 더욱 향상되어 최고 71.03%를 기록하였다. 학습 시 단어의 문맥 범위를 얼마나 넓게 할 것인지를 뜻하는 단어 윈도우 크기 실험에서는 5, 7, 10으로 그 범위를 넓혀 갈수록 성능이 향상되어 최고 76.91%의 정확률을 보였다. 마지막으로 실험에 사용한 품사 집합의 종류에 따른 성능 비교 실험에서는 실질 형태소 6개만을 사용한 경우가 형식 형태소까지 포함한 15개 품사를 사용한 경우보다 성능이 더 좋았다. 연구 결과, 여러 실험들을 통해 딥러닝 기반 비지도 학습법이 단어 의미 중의성 해소 연구에 적용될 수 있음을 확인하였다. 본 연구는 지식베이스가 없는 상태에서 비지도 학습과 기계가독형 사전만을 이용해 선행 비지도 학습 기반 연구들에 비해 약 10~15% 높은 정확률의 향상을 이루었다. 또한 문맥 학습에 용이한 Word2Vec을 단어 의미 추론을 넘어 의미 중의성 해소 연구까지 확장함으로써, 보다 객관적인 성능 평가가 가능하고 자동번역 등 다양한 분야에 적용이 가능하도록 하였다는 데에서도 본 연구의 가치를 찾을 수 있다.

참고문헌 (Reference)

免费论文题目: