최근 표절에 대한 많은 논란이 생기면서 리포트나 논문등 문서 표절에 대한 많은 연구가 이루어지고 있다. 이러한 표절은 다양한 유형별로 이루어지고 있으며, 제대로 된 표절 검사 방법은 ... 최근 표절에 대한 많은 논란이 생기면서 리포트나 논문등 문서 표절에 대한 많은 연구가 이루어지고 있다. 이러한 표절은 다양한 유형별로 이루어지고 있으며, 제대로 된 표절 검사 방법은 그 유형을 분석하여 반영하는 것이 올바른 표절 검사의 방법이 될 것이다. 또한, 표절은 주로 문장을 토대로 이루어지며, 어떤 문서의 표절 여부를 판단하기 위해서는 문장 별로 검사하여 그 표절 여부를 검사하는 것이 더 정확한 표절검사가 된다. 그러나 문장 검사를 위해 기존에 많이 사용된 N-gram 비교 방식, 문자열 비교 방식은 원문에 변형을 가한 문장의 경우에는 정확도가 떨어지며, 벡터 공간 모델은 의미적으로 유사한 의미를 가지는 형태소로 표절하는 단어치환 유형 경우 탐지해 내지 못하는 단점을 가지고 있다. 본 논문에서는 표절 검사를 위한 문장 검사를 위해서 표절 문장의 유형을 분석하여, 유형별로 모두 탐지가 가능한 시스템을 구축하기 위해서 LSA와 N-gram을 이용한 문장 검사를 통하여 표절을 탐지하고자 하였다. 또한 LSA에서 일어날 수 있는 단점인 의미적 연관 관계에 따른 검색에 의해서 발생하는 의미적으로 연관은 있으나 실질적으로 표절은 아닌 문장에 대한 표절 판단이라는 단점을 보안하기 위해서 N-gram 비교 방식을 이용하여 찾아내고자 하였다. 제안하는 방법을 평가하기 위해, 제안한 방법론에 기반하여 시스템을 구축하였고, 실제 표절 데이터를 구축하여 실험 및 평가를 수행하여, 91.2%의 재현율과 94.5% 정확률의 성능을 얻어내었다. 또한 본 시스템과 N-gram 혹은 LSA만을 이용하여 검사한 시스템과 비교 수행한 결과 단일의 방법만을 사용한 시스템보다 성능이 향상됨을 볼 수 있었다. ,免费韩语论文,韩语论文网站 |