한국어 웹 문서 범주화를 위한 텍스트 마이닝 기법 연구 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

컴퓨터 네트워크 기술의 발전으로 인터넷 사용률 증가와 함께 웹 문서 또한 기하급수적으로 증가하고 있다. 이로 인해 폭발적으로 증가하는 웹 문서를 빠르고 정확하게 분류하는 문제 또한 ...

컴퓨터 네트워크 기술의 발전으로 인터넷 사용률 증가와 함께 웹 문서 또한 기하급수적으로 증가하고 있다. 이로 인해 폭발적으로 증가하는 웹 문서를 빠르고 정확하게 분류하는 문제 또한 큰 이슈가 되고 있다. 하지만 텍스트 마이닝 기법들은 주로 영어로 작성된 문서들을 중심으로 연구가 진행되고 있어 한국어로 작성된 문서들을 위한 텍스트 마이닝 기법에 대한 연구는 아직 활발하게 진행되지 않은 상태이다. 이는 한국어 특유의 중의적 의미를 가진 단어의 빈번한 사용과 용언의 불규칙 활용, 자유로운 어순, 띄어쓰기 문제 등 한국어 분석에 많은 어려움이 존재하기 때문으로 판단된다.
본 연구에서는 단어의 중의적 사용을 제거하는 방법으로 선택적 Bigram 모델을 제안한다. 빈번하게 함께 사용되는 단어 간의 결합과 형태소 분석을 통해 분리된 품사 간의 결합을 통해 문장 구성 요소의 중의적 해석을 제한한다. 또한, 웹을 통하여 수집한 한국어 웹 문서, 전자메일, 인터넷 신문기사를 형태소 분석, N-gram 모델, 품사결합을 통해 전처리하고, 이를 범주화하기 위한 텍스트 마이닝 기법을 제안하고 이를 통해 선택적 Bigram 모델의 성능을 평가한다.
텍스트마이닝을 위한 기법은 현재까지 많은 방법이 소개되었고, 현재도 개발되고 있다. 모든 문서에 가장 적합한 텍스트 마이닝 기법은 존재하지 않는다. 분석에 사용될 데이터의 특성을 잘 파악하고 그에 맞는 기법을 활용하는 것이 분석 결과의 품질을 높이는 방법이다. 본 연구에서는 웹 문서를 분석하여 사람의 스트레스 원인을 분석하고, 전자메일을 주제별로 군집화하는 문제, 낚시성 인터넷 신문기사를 분류하는 문제에 적합한 텍스트 마이닝 기법을 제안한다.

韩语毕业论文韩语毕业论文
免费论文题目: