연관단어 벡터 기반 감성 단어 유사도를 이용한 단어의 쾌-불쾌 지수 추정 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27

감성 분석은 자연언어 처리 기술 및 텍스트마이닝 기술을 활용하여 텍스트 데이터로부터 주관적인 정보를 인식 및 추출하는 기술로서, 분석하고자 하는 문서에 포함된 감성 단어의 감성 극...

감성 분석은 자연언어 처리 기술 및 텍스트마이닝 기술을 활용하여 텍스트 데이터로부터 주관적인 정보를 인식 및 추출하는 기술로서, 분석하고자 하는 문서에 포함된 감성 단어의 감성 극성 및 지수를 이용하여 수행된다. 단어의 감성 지수를 추정하는 연구가 감성 극성을 추론하는 연구보다 정교한 감성 분석을 가능하게 하지만, 한국어를 대상으로 한 감성 지수 추정 연구는 제한된 수의 감성 단어의 감성 지수를 추정하는 수준에 그치고 있어 신규 단어에 대한 감성 지수를 자동으로 추정하는 기술이 필요하다.
본 논문에서는 감성 단어를 동시 출현 단어와의 연관성 벡터로 표현하고, 벡터 간 유사도를 기반으로 감성 단어 간 유사도를 추출하여 신규 감성 단어의 쾌-불쾌 지수를 자동으로 추정하는 방법을 제안한다. 제안 방법은 전처리, 자질어 선택, 동시 출현 단어와의 연관성 계산, 감성 단어 간 유사도 계산, 유사도 보정, 반의어 제거의 단계를 거쳐 최종적으로 쾌-불쾌 지수 자동 추정을 수행한다. 실험 결과 제안 방법이 기존 방법들에 비해 좋은 성능을 보였다.

Sentiment analysis is a technology that extracts subjective information from text data by using natural language processing and text mining. In general, sentiment analysis is conducted based on the sentiment of words in a document. Although sentiment ...

Sentiment analysis is a technology that extracts subjective information from text data by using natural language processing and text mining. In general, sentiment analysis is conducted based on the sentiment of words in a document. Although sentiment index can be more useful in detailed sentiment analysis than sentiment polarity, sentiment index for Korean is applied available only for a limited number of sentiment words in Korean. For this reason, it is needed to estimate sentiment index of new sentiment words automatically.
In this , we propose a method to estimate a pleasure-displeasure index of word using similarity between sentiment words based on word association vectors. In order to automatically estimate a pleasure-displeasure index, the proposed method conducts preprocessing, feature selection, cooccurrence-based word association analysis, similarity calculation between sentiment words, similarity adjustment, and antonym elimination. The experimental results show that the proposed method outperforms to existing methods.
