원거리 감독과 기계학습 기반 관계 추출 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

지식 베이스를 생성하는 관계 추출은 다양한 자연어처리 연구 및 서비스에 사용되는 중요한 정보이다. 관계 추출을 위한 대부분의 방법론은 관계 추출 말뭉치를 이용하고 있다. 그러나 관계...

지식 베이스를 생성하는 관계 추출은 다양한 자연어처리 연구 및 서비스에 사용되는 중요한 정보이다. 관계 추출을 위한 대부분의 방법론은 관계 추출 말뭉치를 이용하고 있다. 그러나 관계 추출 말뭉치의 구축은 매우 시간 소모적이고, 인력 소모적인 작업으로 많은 양의 말뭉치를 구축할 수 없다. 이러한 문제점을 최소화하기 위해 자동으로 말뭉치를 생성하기 위한 원거리 감독법이 연구되었다. 본 논문에서는 기존의 말뭉치와 원거리 감독법으로 생성된 말뭉치에 대해 각각의 관계 추출 모델을 제안한다. 기존의 말뭉치를 대상으로 한 한국어 관계 추출을 위해 한국어 구문 구조에서 중요한 의존 트라이그램을 추출하였다. 추출된 의존 트라이그램으로부터 구문 구조의 유사도를 계산하는 의존 트라이그램 커널을 이용하여 관계 추출을 하였다. 실험 결과 관계 포함 문장 선택에서 0.846의 F1-measure, 관계 표현 어휘 추출에서 0.734의 F1-measure를 보였으며, 영어 평가 집합에 대해서도 0.626의 F1-measure로 높은 성능을 보였다. 다음으로 원거리 감독법으로 생성된 말뭉치에서 발생하는 오류를 해결하기 위해 어휘와 구문패턴을 이용하여 관계 포함 문장을 선택하는 one-class 모델을 제안하였으며, 관계 포함 문장에서 관계를 분류하기 위해 규칙 기반의 TBL 모델을 이용하였다. 실험을 통해 F1-measure 0.638의 결과를 얻을 수 있었다. 제안한 방법론은 한국어에 적합한 방법론으로 한국어의 구문 구조를 효과적으로 비교하였고, 자동으로 생성된 많은 양의 말뭉치의 오류를 줄이며, 규칙 기반의 방법으로 기존의 기계학습 모델들과 동등한 성능을 보임으로써 관계 추출이 가능함을 보였다. 따라서 제안한 2가지의 관계 추출 모델을 통하여 학습 데이터의 형태에 따라 학습 방법이 달라져야 함을 알 수 있었으며, 각각의 학습 방법이 관계 추출에 적합함을 확인하였다.

Generating relation extraction on knowledge base is important information for various natural language processing researches and services. Most existing relation extraction methods using relation extraction corpus. However, due to matter of time consu...

Generating relation extraction on knowledge base is important information for various natural language processing researches and services. Most existing relation extraction methods using relation extraction corpus. However, due to matter of time consuming and labor intensive job a corpus of relation could not be generated a large number of corpora. To overcome these disadvantages, distant supervision methods has been studied to generate corpus automatically. We proposes each of the relation extraction models that generated by existing corpus and distant supervision. For relation extraction of Korean (language?) targeting on existing corpus, dependency trigram, important on Korean dependency structure was extracted. And for relation extraction, dependency trigram kernel calculates similarity on dependency structure using this extracted dependency diagram. The result shows high performance levels on each tests - F1-meature of 0.846 on sentence selection including relations, F1-meature of 0.734 on relation name extraction, and F1-measure of 0.626 on English evaluation corpus as ACE. Furthermore, we proposes one-class model that selecting sentences including relations, uses lexical dependency pattern to figure out errors occurs on corpus that generated from distance supervision, as well as rule based model, TBL to classified relationship on sentences including relations. Experiments shows F1-measure of 0.638. A proposed method that shows through the experiments is appropriate for Korean(language) and it compares dependency structure of Korea (language) effectively. Moreover, this experiment as a rule of base methods, exhibited similar performance as compared with previous supervised machine learning method as reduces a number of corpus errors generated automatically. Therefore, through the two relation extradition models we proposed, this study discovered that study methods should be changed based on types of study data and identified each of study methods is appropriate for relation extraction.

韩语论文范文韩语论文网站
免费论文题目: