Semantic Role Labeling (SRL) is basic step of natural language processing for semantic analysis of natural language text. SRL systems can be used in other natural language processing such as information extraction and question answering systems. SRL s... Semantic Role Labeling (SRL) is basic step of natural language processing for semantic analysis of natural language text. SRL systems can be used in other natural language processing such as information extraction and question answering systems. SRL studies can be divided into two methods: one is frame based method, the other is a corpus based method. Recent SRL research is focused in corpus based method using machine learning algorithms such as Structural Support Vector Machine(SVM) and Long Short-term Memory(LSTM) Conditional Random Fields(CRF). In this , we propose a Semantic Role Labeling System using UPropBank case frame dictionary based on Standard Korean Great Dictionary and Subcategory of predicate in UWordMap as feature in CRF model. Our experimental results showed that 83.1322% accuracy.
기계가 사람과 같이 문장을 처리하게 하려면 사람이 쓴 문장을 토대로 사람이 문장을 통해 발현하는 모든 문장의 표현 양상을 학습해 사람처럼 분석하고 처리할 수 있어야 한다. 이를 위해 ... 기계가 사람과 같이 문장을 처리하게 하려면 사람이 쓴 문장을 토대로 사람이 문장을 통해 발현하는 모든 문장의 표현 양상을 학습해 사람처럼 분석하고 처리할 수 있어야 한다. 이를 위해 기본적으로 처리되어야 할 부분은 언어학적인 정보처리이다. 언어학에서 통사론적으로 문장을 분석할 때 필요한 것이 문장을 성분별로 나눌 수 있고, 문장의 핵심인 용언을 중심으로 필수 논항을 찾아 해당 논항이 용언과 어떤 의미적 관계를 맺고 있는지를 파악할 수 있어야 한다. 또한 이를 토대로 기계에 대용량의 말뭉치를 학습시켜 한국어 문장의 유형론적인 패턴을 기계적으로 처리할 수 있도록 프로그램이 되어야 한다. 그러므로 기계 학습을 위한 기본 작업으로 격틀 사전(UPropBank)의 구축이 이루어졌다. 격틀 사전은 국립국어원에서 편찬한 표준국어대사전의 용언을 대상으로 해당 용언이 갖는 의미역을 주석한 결과물이다. 또한 사전의 격조사를 모두 조사한 다음 해당 격조사가 결합된 논항이 어떤 의미역을 가질 수 있는지를 조사하여 의미역을 주석한 결과물을 구축하였다. 기계 학습을 시키기 위해서는 대량의 의미역 부착 말뭉치가 필요한데 본 연구에서 필자가 반자동 의미역 태깅 프로그램인 UTagger-SR을 개발하였다. UTagger-SR에는 기본적으로 한국어 문장의 의미역을 주석할 수 있도록 격틀 사전과 격조사별 의미역 빈도가 탑재되어 있다. 기존의 의미역 결정 방법은 격틀 사전에 기반한 방법과 말뭉치에 기반한 방법으로 나눌 수 있다. 최근에는 의미역 부착 말뭉치를 사용한 Structural SVM(Support Vector Machine), LSTM(Long Short-term Memory) CRF(Conditional Random Fields) 등의 기계 학습 기법을 이용한 한국어 의미역 결정 방법이 주를 이루고 있다. 본 연구에서는 국립국어원 표준국어대사전을 기반으로 구축한 격틀 사전(UPropBank)과 한국어 어휘 의미망(UWordMap)에서 용언의 하위 범주를 자질로 구축한 CRF 모델을 적용하여 의미역을 결정하는 방법을 사용하였다. 본 연구에서 사용한 말뭉치는 세종구구조말뭉치로 해당 말뭉치에서 15,194개 문장 120,465개 어절을 추출한 것이다. 이렇게 추출한 대상 말뭉치를 UTagger-DP를 사용하여 품사 및 동형이의어 구분, 의존 관계 분석을 하여 의미역을 태깅하였다. 즉, 의미역 태깅 프로그램인 UTagger-SR은 문장의 어절 정보, 용언 정보, 격틀 사전 정보, 단어의 상위어 정보를 자질로 구축한 CRF모델을 기반으로 하여 의미역을 자동으로 태깅하였다. 이렇게 태깅한 결과 정확률이 83.1322%로 기존의 규칙 기반 방법을 사용한 의미역 태깅 결과의 정확률 81.2046%보다 높은 성능을 보였다. ,韩语论文,韩语论文 |