위키피디아를 이용한 다국어 개체명 자원 구축 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

A named entity() is an important information for various natural language processing researches and services. For the development of recognizer(R), the resources( dictionary and tagged corpus) are needed. However, it is not easy to cons...

A named entity() is an important information for various natural language processing researches and services. For the development of recognizer(R), the resources( dictionary and tagged corpus) are needed. However, it is not easy to construct a resources manually since human annotation is time consuming and labor-intensive. To save construction time and reduce human labor, we propose a semi-automatic system for the construction of a resources. The proposed system is consist of dictionary construction, multilingual expansion of dictionary and tagged corpus construction. In the dictionary construction step, the system constructs a pseudo-document with Wiki-categories per class by using an active learning technique. Then, it calculates similarities between Wiki entries and pseudo-documents using the BM25 model, a well-known information retrieval model. Finally, it classifies each Wiki entry into classes based on similarities. In experiments with three different types of class sets, the proposed system showed high performance(macro-average F1-score of 0.9028 and micro-average F1-score 0.9554). If dictionary construction is done, Multilingual expansion of dictionary is easy because of the characteristic of Wikipedia. In experiments with constructing English dictioanry from Korean dictionary by multilingual expansion method, the proposed system showed macro-average F1-score of 0.8789 and micro-average F1-score 0.9036. Using the dictionary, I construct tagged corpus by the distant supervision method and two heuristics. In experiments with constructing R using generally used features, the R is implemented with F1-score of 0.7317.

개체명은 다양한 자연어처리 연구 및 서비스에 중요한 정보로 이용된다. 개체명 인식기의 개발을 위해서 개체명 자원(개체명 사전, 개체명 부착 말뭉치)은 필수적이다. 그러나 개체명 자원...

개체명은 다양한 자연어처리 연구 및 서비스에 중요한 정보로 이용된다. 개체명 인식기의 개발을 위해서 개체명 자원(개체명 사전, 개체명 부착 말뭉치)은 필수적이다. 그러나 개체명 자원을 구축하는 것은 매우 시간 소모적이고, 인력 소모적인 작업이다. 이를 완화하기 위해서 본 논문에서는 개체명 자원을 반자동으로 구축하는 방법을 제안한다. 제안 방법은 개체명 사전구축, 개체명 사전의 다국어 확장, 개체명 부착 말뭉치 구축으로 구성된다. 개체명 사전 구축 시스템은 능동 학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 그리고 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 마지막으로 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 서로 다른 3종류의 개체명 범주 집합에서 실험한 결과, 제안 시스템은 매크로 평균 F1-점수 0.9028, 마이크로 평균 F1-점수 0.9554이라는 높은 성능을 보였다. 이렇게 구축된 개체명 사전은 위키피디아의 특성에 의해 쉽게 다국어로 확장이 가능하다. 본 논문에서는 앞서 구축된 한국어 개체명 사전으로부터 영어 개체명 사전을 자동으로 구축하는 실험을 하였다. 그 결과 매크로 평균 F1-점수 0.8789, 마이크로 평균 F1-점수 0.9036의 결과를 얻을 수 있었다. 구축된 개체명 사전을 이용하여 원거리 감독법과 간단한 휴리스틱으로 개체명 부착 말뭉치를 구축할 수 있다. 일반적인 자질을 이용한 개체명 인식기를 구현하여 실험한 결과 F1-점수 0.7317의 성능을 보이는 개체명 인식기를 구현할 수 있었다.

韩语论文题目韩语论文网站
免费论文题目: