일반적으로 인터넷 신문 기사에 대한 댓글은 그 신문 기사에 대한 주관적인 감정이나 의견을 포함하고 있다. 따라서 이런 신문 기사의 댓글에 대한 감정을 인식하고 분류하는 데에는 그 신...
일반적으로 인터넷 신문 기사에 대한 댓글은 그 신문 기사에 대한 주관적인 감정이나 의견을 포함하고 있다. 따라서 이런 신문 기사의 댓글에 대한 감정을 인식하고 분류하는 데에는 그 신문 기사의 원문 내용이 중요한 영향을 미친다. 이런 점에 착안하여 본 논문은 기사의 원문 내용과 감정 사전을 이용하는 가중치 조정 방법을 제안하고, 제안된 가중치 조정 방법을 이용해서 한국어 신문 기사의 댓글에 대한 감정 이진 분류 방법을 제안한다.
가중치 조정 방법에는 다양한 자질 집합이 사용되는데 그것은 댓글에 포함된 감정 단어, 그리고 감정 사전과 뉴스 기사의 본문에 관련된 자질들, 마지막으로 뉴스 기사의 카테고리 정보가 포함되어 있다. 여기서 말하는 감정 사전은 한국어 감정 사전을 의미하며 아직 공개된 것이 없기 때문에, 기존에 있는 영어 감정 사전을 이용하여 구축하였다.
본 논문에서 제안된 감정 이진 분류는 기계 학습을 이용한다. 일반적으로 기계 학습을 위해서는 학습 말뭉치가 필요한데 특별히 감정 분류 문제에서는 긍정 혹은 부정 감정 태그가 부착된 말뭉치가 필요하다. 이 말뭉치의 경우도, 공개된 한국어 감정 말뭉치가 아직 없기 때문에 말뭉치를 직접 구축하였다. 사용된 기계 학습 방법으로는 Naïve Bayes, k-NN, SVM이 있고, 자질 선택 방법으로는 Document Frequency, χ^2 statistic, Information Gain이 있다.
그 결과, 댓글 안에 포함된 감정 단어와 그 댓글에 대한 기사 본문이 감정 분류에 매우 효과적인 자질임을 확인할 수 있었다.
,韩语论文,韩语论文范文 |