문서 임베딩을 이용한 개체 링킹 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

최근 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 네트워크의 출현 등으로 정보량이 급속도로 늘어나고 있다. 따라서 증가하는 정보들 가운데 필요한 정보를 찾기 위한 다...

최근 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 네트워크의 출현 등으로 정보량이 급속도로 늘어나고 있다. 따라서 증가하는 정보들 가운데 필요한 정보를 찾기 위한 다양한 연구들이 진행되고 있다. 정보 추출의 한 분야인 개체명 인식과, 인식된 개체명을 특정 개체에 링킹하는 연구들은 방대한 정보 속에서 의미 있는 지식을 추출하기 위해 활발히 시도되고 있다. 개체 링킹(Entity Linking)은 텍스트에 출현한 개체명을 위키피디아와 같은 지식 베이스의 특정 엔트리 본 논문에서 개체와 동일한 의미로 사용되며 각 페이지의 텍스트가 설명하는 대상을 나타낸다. 또한 페이지의 텍스트 내에는 의미적 관계를 가지는 다른 개체들의 페이지들이 링크로 나타난다. 다시 말해, 위키피디아 개체들 사이에 링크가 존재하면, 개체들은 의미적 관계를 갖는다.
에 대응시키는 작업이다.

개체 링킹에 대한 연구들은 지식 베이스를 외부 자원으로 사용하여 실세계의 지식과 의미적 관련도를 통해 중의성을 해소하는데 중점을 두고 있다. 지식 베이스를 사용한 개체 링킹은 뉴스와 같은 일반 텍스트에서는 좋은 성능을 보이지만, 마이크로블로그에서는 마이크로블로그가 가지는 특성 때문에 비교적 낮은 성능을 보인다.

본 논문에서는 최근 활발히 진행되고 있는 딥러닝(Deep Learning)을 적용한 분산 문서 표현(Distributed Document Representation)을 사용하여 140자 제한의 짧은 텍스트 내에서 실시간으로 빠르게 정보를 공유하는 특성을 가지는 트위터 데이터에서 나타나는 개체명의 중의성을 해소하는 방법을 제안한다. 제안하는 방법은 지식 베이스만 사용하는 개체 링킹의 한계를 극복하기 위해 마이크로블로그 사용자 기록을 이용한다. 또한 지식베이스의 링크 정보를 이용해 의미 관련도로 개체 링킹을 했던 기존의 연구들과는 다른 방법으로 딥러닝을 적용하기 위해 Quoc V.와 Mikolov[1]가 제안한 방식으로 Paragraph Embedding을 통해 학습된 모델을 통해 지식 베이스에 존재하는 특정 엔트리로의 개체 링킹을 제안한다. 본 논문에서는 개체명을 포함하는 한국어 트윗을 추출하여 데이터를 구축하였다. 실험을 통해 제안하는 시스템이 구축한 데이터에서 기존 지식 베이스만 사용한 개체 링킹 시스템의 59.0% 보다 높은 73.3%의 정확도(Accuracy)을 나타내었고, 개체링킹에 효과적이라는 것을 확인하였다.

With the rapid evolution of the computer technic, mobile devices, sensors and the emergence of network, information content is rapidly increasing. Therefore many researches are focusing on extracting important information. Named Entity Recognition an...

With the rapid evolution of the computer technic, mobile devices, sensors and the emergence of network, information content is rapidly increasing. Therefore many researches are focusing on extracting important information. Named Entity Recognition and Entity Linking is the part of information extraction part in natural language processing field.

Recent researches on Entity Linking(EL) have attempted to disambiguate entities by using a knowledge base to handle the semantic relatedness and up-to-date information. However, EL for tweets using a knowledge base is still unsatisfactory, mainly because the tweet data are mostly composed of short and noisy contexts and real-time issues.

In this , we propose an approach to building an EL system that links ambiguous entities to the corresponding entries in a given knowledge base through using Document Embedding and the user history. Our approach overcome the problem of the EL system just using knowledge base by using Document Embedding. Quoc V. and Mikolov[1] suggested the model Doc2Vec that exploits Document Embedding. We propose the EL system using Paragraph Embedding to training the vector space model.

We created a dataset of Korean tweets including ambiguous entities randomly selected from the extracted tweets over a seven-day period and evaluated the system using this dataset. We use accuracy index(number of correct answer given by system/number of data set) The experimental results show that our system achieves a accuracy of 73.3% and outperforms the EL methods that exclusively use a knowledge base.

참고문헌 (Reference)

활용도 분석

View

Usage

Share

免费论文题目: