본 논문에서 우리는 비지도학습 방법을 이용한 한국어 의미역 결정에 대해 설명 한다. 교착어인 한국어는 다양한 어순과 복잡한 형태소를 갖고, 이런 교착어의 문제를 해결하기 위해서 단어... 본 논문에서 우리는 비지도학습 방법을 이용한 한국어 의미역 결정에 대해 설명 한다. 교착어인 한국어는 다양한 어순과 복잡한 형태소를 갖고, 이런 교착어의 문제를 해결하기 위해서 단어표현 방법과 접미사를 나타내는 벡터를 사용한다. 단어 표현은 Canonical Correlation Analysis (CCA) 알고리즘을 사용하였다. 첫 번째로, 우리는 구문정보 와 형태소를 나타내기 위해 단어표현을 이용하여 논항의 임베딩을 만든다. 그리고 접 미사의 하나인 조사를 표현할 수 있는 조사 벡터를 만든다. 마지막으로 우리는 논항 임베딩과 조사 벡터를 붙여 새로운 Tuple 표현을 만들고, 만들어진 Tuple 표현을 의미 역 결정을 위해 클러스터링 한다. 우리는 10번 이상 나타난 술어만을 대상으로, 각 술 어 클러스터 별로 4개의 클러스터가 있다고 가정한다. 논항은 Tuple 표현을 k-means 알 고리즘으로 클러스터링 하여 각 클러스터에 할당된다. 우리는 70.16% F1 성능과 75.85%의 클러스터 정확도를 확인하였다.
In this we describe an unsupervised semantic role labeler for Korean, an agglutinative language with variable word order and complex morphology. We treat role induction as a clustering problem. To resolve sparsity issue for agglutinating languag... In this we describe an unsupervised semantic role labeler for Korean, an agglutinative language with variable word order and complex morphology. We treat role induction as a clustering problem. To resolve sparsity issue for agglutinating languages, we employ word representations and feature vector of the suffixes. Word representations based on Canonical Correlation Analysis (CCA). First, we construct argument embedding to help deal with the sparsity issue for agglutinating languages and these representations which provides syntactic and morphological information. We then develop an indicator vector of the suffixes such as Josa. Finally, we construct the Tuple representation by concatenated argument embedding and Josa indicator vector. The role induction is performed by clustering the argument Tuple representation. We used 4 cluster for each predicate and restricted the set of predicates to those attested with more than 10 instances. Arguments are assigned to clusters based on Tuple representation by k-means algorithm. These method which achieves up to a 70.16% of F1-score and 75.85% of accuracy. ,韩语毕业论文,韩语论文范文 |