사전과 원시 말뭉치를 이용한 단어 의미 부착 기법 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

Sense tagging is traditional task in natural language processing field, it is tagged relevant sense to target word based on the surrounding context. Among them, all-words sense tagging is the task of determining correct senses to all content words in ...

Sense tagging is traditional task in natural language processing field, it is tagged relevant sense to target word based on the surrounding context. Among them, all-words sense tagging is the task of determining correct senses to all content words in the given text. Because sense list for each word is necessary to tag sense of word, dictonary including sense invectory of all words is essential language resource to all-word sense tagging. Therefore, all studies for all-word sense tagging have been progressed to improve performance using various language resources (sense tagged corpus, Word, ontology, etc) additionally based on Machine Readable Dictionary (MRD). However, the resource deficient languages cannot use the sense tagging method requiring vast resources. The conventional sense tagging method utilizing only MRD suffers from the low recall and low precision because it determines senses only when a gloss word in the dictionary exactly matches with a context word. In this , we propose two all-words sense tagging method which is effective especially for resource deficient languages. It requires MRD which is the essential resource for all-words sense tagging and a raw corpus which is easily acquired and freely available. The first proposed sense tagging method tries to find semantically related context words based on the co-occurrence information extracted from a raw corpus, and utilizes those words for tagging senses of the target word. The second proposed sense tagging method utilize result of word embedding to calculate similarity between words. The experimental results show that we can automatically tag senses to all contents words with high precision when we evaluate the proposed sense tagging algorithm on the Korean test corpus consisting of about 15 million words. Furthermore, we also show that the semantic concordancer can be developed based on the automatic sense tagged corpus.

단어 의미 부착(sense tagging)은 자연어처리 분야의 오래된 과제로서 텍스트에 함께 나타나는 문맥 단어를 기반으로 대상 단어에 적절한 의미를 부착하는 작업이다. 그 중에서 모든 단어 의미 ...

단어 의미 부착(sense tagging)은 자연어처리 분야의 오래된 과제로서 텍스트에 함께 나타나는 문맥 단어를 기반으로 대상 단어에 적절한 의미를 부착하는 작업이다. 그 중에서 모든 단어 의미 부착(all-words sense tagging)은 주어진 텍스트에 있는 모든 내용어에 올바른 의미를 부착하는 작업이다. 단어에 의미를 부착하기 위해서는 각 단어에 대한 의미 목록(sense inventory)이 필요하기 때문에, 모든 단어에 대한 의미 목록을 포함하고 있는 사전은 모든 단어 의미 부착에 필수적인 언어자원이다. 따라서 모든 단어 의미 부착 연구는 기계 가독형 사전(Machine Readable Dictionary, MRD)을 기반으로 다양한 언어 자원(의미 부착 말뭉치, Word, 온톨로지 등)을 추가적으로 사용하여 그 성능을 개선하는 방향으로 진행되었다. 하지만 언어 자원이 부족한 언어에서는 다양한 언어 자원을 추가적으로 이용하기 어렵고, MRD만을 이용한 전통적인 기법은 문맥 단어(context word)와 정확히 일치하는 사전 내용 단어(gloss word)만을 의미 결정에 이용하여 재현율과 정확도가 낮은 한계가 있다. 본 논문은 모든 단어 의미 부착에 필수적인 언어 자원인 사전과 비교적 쉽게 구할 수 있고 무료로 사용 가능한 언어 자원>인 원시 말뭉치만을 추가적으로 이용하여 언어 자원이 부족한 언어에서도 효과적으로 사용할 수 있는 모든 단어 의미 부착 기법을 두 가지 제안한다. 첫 번째 의미 부착 방법은 원시 말뭉치에서 추출한 공기 정보를 바탕으로 모든 단어들 간의 관련성을 미리 계산하고, 이를 의미 부착에 활용하는 기법이다. 두 번째 방법은 단어들 간의 관련성을 계산하기 위하여 워드 임베딩 결과를 이용하는 기법이다. 1,500만 단어로 이루어진 대량의 한국어 실험 데이터를 대상으로 실험한 결과, 높은 정확도로 모든 단어의 의미를 부착할 수 있음을 확인하였다. 아울러 이렇게 구축된 의미 부착 말뭉치를 이용하여 의미기반 용례 검색기를 구축할 수 있음을 보인다.

韩语论文题目韩语论文题目
免费论文题目: