최근 모바일 환경의 발달로 인해 SNS(Social work Service) 등으로 부터 생산되는 데이터의 양이 급격하게 늘어나면서 비정형(unstructured) 혹은 반정형(semi-structured) 문서로부터 의미 있는 정보를 ... 최근 모바일 환경의 발달로 인해 SNS(Social work Service) 등으로 부터 생산되는 데이터의 양이 급격하게 늘어나면서 비정형(unstructured) 혹은 반정형(semi-structured) 문서로부터 의미 있는 정보를 찾기 위한 정보 추출(Information Extraction) 기술에 대한 연구가 진행되고 있다. 정보 추출은 자연 언어(Natural Language)에 대한 이해가 요구되며 자연 언어 처리(Natural Language Processing)를 위한 대한 많은 방법들이 연구되었다. 그러나 현재 자연 언어 처리 기술로는 자연언어를 완벽하게 이해할 수 없기 때문에 모든 문서로부터 원하는 정보를 찾기에는 다소 무리가 따른다. 하지만 신문 기사와 같이 제한된 도메인의 문서로부터 사건, 사고 등의 정보를 추출하는 것은 해당 응용에서 필요한 정보만 분석하면 된다. 이와 같이 완벽한 자연어의 이해가 요구되지 않는 수준의 정보 추출 방법들이 연구되어 왔다. 본 논문에서는 최근 자연 언어 처리 분야에서 핵심적인 영역으로 인식되고 있는 정보 추출 문제를 위하여 기계 학습 기반의 의미역 결정 및 관계 추출 연구를 수행한다. 먼저 의미역 결정 문제를 위하여 structural SVM을 이용한 전이 기반(transition-based)의 한국어 의미역 결정 시스템을 구축한다. 또한 전이 기반 파싱(Parsing) 알고리즘을 의미역 결정 문제에 알맞게 수정된 알고리즘을 사용하였으며, 의미역 결정 문제를 다중 분류(multi-classification) 문제로 바꾸어 학습 및 실험을 진행한다. 두 번째로, 한국어 관계 추출 문제를 위하여 딥러닝(Deep Learning)을 이용한 임베딩 기반(embedding-based)의 한국어 관계 추출 시스템을 구축하고, 학습 데이터의 부족 문제를 해결하기 위하여 distant supervision 방법을 기반으로 자동으로 구축한 학습 데이터를 말뭉치로 이용한다. 실험을 통하여 한국어 의미역 결정의 성능은 논항 인식/분류(AIC)에서 68.32%(F1)의 성능을 보였으며, 한국어 관계 추출의 성능은 84.15%(F1)의 성능을 보였다.
Information extraction (IE) is an important part of natural language processing (NLP) finding meaningful information from unstructured or semi-structured machine-readable documents. There are three typical IE subtasks: named entity recognition (R), ... Information extraction (IE) is an important part of natural language processing (NLP) finding meaningful information from unstructured or semi-structured machine-readable documents. There are three typical IE subtasks: named entity recognition (R), coreference resolution (CR), relation extraction (RE). In spite of continual efforts to understand the natural language texts, however, it is still difficult to find the information what you want from all documents. Due to the difficulty of the problem, current approaches to IE focus on narrowly restricted domains. For example, Extracting accidents or events from the news articles and prices on the web pages are comparatively easy problem to solve with current technology. This focuses on the problem of learning to perform relation extraction (RE) and semantic role labeling (SRL) under the machine learning to treat information extraction problem. RE is sub-task of IE to assign relations between entities such as PERSON born in LOCATION(e.g. John was born in United States). RE also considers that entities have already been detected by a different process, such as a named-entity recognizer. SRL is another IE task to detect predicates in text, choose their correct senses, identify their associated arguments and predict the semantic roles of the arguments. First, We apply transition-based parsing algorithm for Korean semantic role labeling. For its learning, we use a structural SVM. Second, We adopt the embedding method for Korean relation extraction with deep learning. To solve the lack of learning data, we collect data under the distant supervision method. The experiments of SRL achieves 68.32%(F1) on argument identification/classification(AIC) and RE achieves 84.15%(F1). ,韩语论文范文,韩语论文网站 |