의견어중심의 의존트리패턴자질을 이용한 기계학습기반 한국어 블로그 문서 의견분류시스템 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-28
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

Compared to other pre-existing services, blogs can be used by any one else due to the high popularity of the Web 2.0 and the low technical penetration walls. The value of blogs are steadily increasing as an important tool for the production and consum...

Compared to other pre-existing services, blogs can be used by any one else due to the high popularity of the Web 2.0 and the low technical penetration walls. The value of blogs are steadily increasing as an important tool for the production and consumption of the web contents. Also, 77% of the national internet users visit blogs or subscribe to the RSS to discuss various topics and are forming social relationships. One of the useful information that can be derived from the overflowing blogs of various topics, is the opinion of the users. The opinions that are expressed on blogs can be classified into positive, negative and neutral polarities. If the document classifications until now focused on the subjects of the documents, the opinion polarity classification needs new classification techniques, measurement selection and weighing methods as they are performed focusing on the positive and negative opinions about the blog topic. The pre-existing opinion polarity classification study was based mainly on the machine learning techniques, and the most used disposition were the speech information and the opinionated vocabulary information such as nouns and verbs. If one opinionated vocabulary is to be considered, there are not enough information to distinguish the polarity which may lead to the wrong results. This study set a hypothesis that a more exact opinion classification can be conducted, than considering many vocabulary simultaneously. In order to extract an effective opinionated disposition, the dependence tree pattern was extracted using the dependence sentence analysis based on the opinionated vocabulary that are likely to contain opinions, and by applying the suggested Patter Frequency-Inverse Document Frequency(PF-IDF) weight the comparison experiment of the Support Vector Machine(SVM) and Multinomial Naive Bayes(MNNB) algorithm was performed. Compared to the Term Frequency -Inverse Document Frequency(TF-IDF) weighing method, the Support Vector Machine(SVM) showed 5.0%, and the Multinomial Naive Bayes(MNNB) showed 8.9% increase in the accurateness.

블로그(Blog)는 웹2.0의 인기와 함께 기존의 다른 서비스와 비교해 기술적 진입장벽이 낮아 누구나 쉽게 사용할 수 있고, 웹을 통한 콘텐츠의 생산과 소비를 위한 중요한 도구로 그 가치가 점...

블로그(Blog)는 웹2.0의 인기와 함께 기존의 다른 서비스와 비교해 기술적 진입장벽이 낮아 누구나 쉽게 사용할 수 있고, 웹을 통한 콘텐츠의 생산과 소비를 위한 중요한 도구로 그 가치가 점점 증대되어가고 있다. 또한 국내 인터넷 인구의 77%가 블로그를 방문하거나 RSS를 구독하며 다양한 주제로 의사소통을 하며 사회적관계를 형성해 나가고 있다. 이처럼 다양한 주제로 넘처나는 블로그문서들을 통해 추출해 낼 수 있는 유용한 정보 중에 하나가 블로그에 표현된 이용자의 의견(Opinion)이다. 이렇게 블로그에 표현된 의견(Opinion)은 긍정, 부정, 중립 등의 극성(Polarity)으로 분류할 수 있다. 지금까지의 문서분류가 문서의 주제에 초점을 맞추었다면, 의견극성분류는 블로그 주제에 대한 긍정의견과 부정의견에 초점을 맞추어 진행되어야 하기 때문에 이에 적합한 새로운 분류기법과 자질선정 및 가중치 방식이 필요하다. 기존에 의견극성분류 연구는 주로 기계학습기법에 기반한 방법이었고, 이때 주로 활용된 자질은 명사, 동사 등의 품사정보와 의견어 어휘정보였다. 하지만 하나의 의견어 어휘만을 고려한다면 그 극성을 판별하는데 필요한 정보가 충분하지 않아 부정확한 결과를 도출하는 경우가 발생할 수 있다. 본 논문에서는 여러 어휘를 동시에 고려하였을 때 보다 정확한 의견분류를 수행할 수 있을 것이라는 가정을 세웠다. 본 논문에서는 효과적인 의견어휘자질의 추출을 위하여 의견이 내포될 가능성이 높은 의견어휘를 기반으로 의존구문분석을 통해 의존트리패턴을 추출하였고, 제안하는 PF-IDF 가중치를 적용하여 지지벡터기계(SVM)와 다항시행 단순베이즈(MNNB)알고리즘으로 비교 실험을 수행하였다. 기준시스템인 TF-IDF 가중치 기법에 비해 정확도(accuracy)가 지지벡터기계(SVM)에서 5.0%, 다항시행단순베이즈(MNNB)에서 8.9% 향상된 성능을 보였다.

韩语论文题目韩语论文题目
免费论文题目: