원래 컴퓨터 비전을 위해 고안된 딥러닝 알고리즘인 CNN(Convolutional Neural work)이 최근에 자연어 처리에 효과적이라고 알려지면서, word2vec과 CNN을 이용한 문장 분류 모델(이하 기반 모델로 표... 원래 컴퓨터 비전을 위해 고안된 딥러닝 알고리즘인 CNN(Convolutional Neural work)이 최근에 자연어 처리에 효과적이라고 알려지면서, word2vec과 CNN을 이용한 문장 분류 모델(이하 기반 모델로 표기)이 제안되었고 실제로 우수한 결과를 보여주었다. 그리고 기반 모델은 구조가 단순하고 빠른 훈련․예측 시간 및 성능 상의 장점을 가진다. 이런 장점을 이유로 기반 모델을 문서의 분류에 적용하여 성능을 검증해 보기로 하였다. 문서 분류에 적용하기 전에 기반 모델의 구조를 분석한 결과, 기반 모델에서 사용하는 CNN은 입력으로 고정 길이를 요구하여 CNN에 입력되는 단어의 개수를 데이터셋 내 최장 길이 문서가 포함한 단어의 개수로 설정해야 하기 때문에 CNN의 입력 길이를 맞추기 위해 상대적으로 길이가 짧은 대부분의 문서들은 많은 zero-padding을 추가함으로써 문서 전체를 훈련할 때 효율성이 저하되는 문제점이 발생할 수 있다는 것을 발견하였다. 따라서 기반 모델을 문서 분류에 적용 시 발생 가능한 문제점을 해결하고 성능을 향상시키기 위하여, 성능이 저하되지 않는 범위로 입력 문서의 길이를 제한하고 문서 자체를 하나의 고정 크기 벡터로 표현하는 알고리즘인 doc2vec을 활용한 추가적인 접근 방식을 구상하게 되었다. 이에 본 논문에서는 문장의 분류에 있어 성능이 입증된 word2vec을 활용한 CNN 모델을 기반으로 하여 문서 분류에 적용 시 성능을 향상시키기 위해 doc2vec을 함께 CNN에 적용하고 기반 모델의 구조를 개선한 방안을 제안한다. 먼저 단어 및 문서의 벡터 표현 생성에 앞서 문서의 토큰화가 선행되어야 하기 때문에, 문서 분류에 유용한 토큰화 방법을 선정하기 위하여 초보적인 실험을 수행하였다. 실험을 통하여, WPM(Word Piece Model)을 적용한 토큰화 방법이 분류율 79.5%를 산출하여 어절 단위와 형태소 분석을 이용한 토큰화 방법에 비해 문서의 분류에 유용함을 실증적으로 확인하였다. 다음으로 WPM을 활용하여 생성한 단어 및 문서의 벡터 표현을 기반 모델과 제안 모델에 입력하여 범주 10개의 한국어 신문 기사 분류에 적용한 실험을 수행하였다. 실험 결과, 제안 모델이 분류율 89.88%를 산출하여 기반 모델의 분류율 86.89%보다 2.99% 향상되고 22.80%의 개선 효과를 보였다. 본 연구를 통하여, doc2vec이 범주별로 문서들을 군집화 시켜주기 때문에 문서의 분류에 doc2vec을 함께 활용하는 것이 효과적임을 검증하였다. ,免费韩语论文,韩语论文 |