Microblog 텍스트의 한국어 감성분석 연구 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

지금까지 국내에서는 우리말을 이용하여 긍부정을 판단하는 감성분석연구(sentiment analysis)가 주를 이뤘고, 여러 감정으로 분류하는 감정분석연구(emotion analysis)는 진행되지 않았다. 이에 본 ...

지금까지 국내에서는 우리말을 이용하여 긍부정을 판단하는 감성분석연구(sentiment analysis)가 주를 이뤘고, 여러 감정으로 분류하는 감정분석연구(emotion analysis)는 진행되지 않았다. 이에 본 연구에서는 한글 문서를 기반으로 기계학습 모델을 적용하여 7개의 감정으로 분류하고 그 결과를 영화평에 적용하여 영화 장르별 감정특성을 분석하였다.
감정분류에 사용되는 감정 클래스(class)는 심리학에서 감정평가 방법으로 사용되는 POMS(Profile of Mood States)로부터 ‘분노’, ‘혼란’, ‘우울’, ‘피로감’, ‘친근감’, ‘긴장감’, ‘생동감’ 총 7개의 감정을 추출하였다. 또한 감정 클래스 이 외에 54개의 감정형태소를 POMS로부터 추출하였고, 이를 확장하여 감정이 붙여진 감정형태소 322개를 확보하였다. 또한 서술어에 감정형태소가 쓰이고, 하나의 감정만을 나타내는 한글 트윗(tweet) 1만 7천여 개를 기계학습 모델의 학습데이터로 사용하였다.
본 연구에서는 베이즈(Bayes) 확률모델과 SVM(Support Vector Machine) 2개의 기계학습 모델을 테스트데이터에 적용한 결과, ‘다항 네이브 베이즈(Multinomial Naive Bayes) 모델’에서 가장 높은 정확도를 보였다. 이는 모든 품사를 자질(feature)로 사용하고, 본 논문에서 제안한 자질 개수 제한 기준인 최소점유율(MOR, Minimum Occupancy Ratio)이 0.6%일 때, 비학습모델의 정확도 20.4%보다 2.5배 높은 51.9%의 정확도를 보였다.
가장 높은 정확도를 보인 ‘다항 네이브 베이즈 모델’을 ‘네이버 40자 영화평’에 적용하여 영화 100편에 해당하는 55만여 개에 달하는 영화평의 감정을 분류하였고, 그 결과를 요인분석(factor analysis)하였다. 그 결과, ‘생동감’과 ‘우울’이 상반되는 감정임을 알 수 있었다. 또한 영화평에 나타난 ‘친근감’은 영화의 평점에 긍정적인 영향을 미치고, ‘분노’, ‘혼란’, ‘피로감’은 부정적인 영향을 미치는 것으로 나타났다. 반면에 ‘생동감’과 ‘우울’은 영화의 평점에 영향을 미치지 않은 것으로 나타났다.
영화 장르별 분석 결과로 단일감정을 특성으로 하는 4개의 장르 즉, 공포-‘긴장감’, 코미디-‘생동감’, 멜로/애정/로맨스-‘친근감’, 범죄-‘혼란’이 감정특성으로 나타났다.
이와 같은 결과로 트위터로부터 수집한 데이터를 이용하여 ‘네이버 40자 영화평’에 적용한 이번 연구는 데이터의 성격을 넘어 본 연구에서 제안한 방법이 실제 응용분야에서의 적용가능성(availability)을 보여준다.

韩语毕业论文韩语毕业论文
免费论文题目: