본 연구의 목적은 기계학습 알고리즘을 이용한 저자 자동 판별 모델을 개발하고 이를 한국어 텍스트에 적용하여 그 성능을 평가하는 것이다. 저자 판별이란 텍스트에서 계량화 가능한 언어...
본 연구의 목적은 기계학습 알고리즘을 이용한 저자 자동 판별 모델을 개발하고 이를 한국어 텍스트에 적용하여 그 성능을 평가하는 것이다. 저자 판별이란 텍스트에서 계량화 가능한 언어적 혹은 문체적 특징을 추출하고 이를 바탕으로 텍스트를 쓴 저자들을 밝혀내는 방법론 혹은 기법을 말한다. 저자 판별은 사회언어학이나 역사언어학과 같은 응용언어학적 분야뿐만 아니라 문학 연구, 법언어학, 개인 및 집단에 대한 프로파일링 (profiling), 스팸 필터링, 표절 판정 등 다양한 분야에 활용 가능한 실용적인 연구 분야이다. 이러한 활용 가능성에도 불구하고 다른 언어에 비해 한국어에 대한 연구는 거의 이루어지지 않았다.
본 연구는 다음의 세 가지 연구 문제를 제시하고 그에 대한 답을 찾기 위한 세 가지의 분석 실험으로 구성되었다. 첫째, 기계학습 모델을 구축할 때 가장 높은 판별 성능을 보이는 언어적 자질이 무엇인가, 둘째, 학습 데이터의 양이 판별 모델의 성능에 어떤 영향을 주는가, 셋째, 판별 대상이 되는 저자의 수가 판별 모델의 성능에 어떤 영향을 주는가 하는 것이 그것이다. 이를 위해 총 10명의 저자가 각 100개씩 작성한 총 1000개의 영화 리뷰로 이루어진 실험 코퍼스를 구축하였다. 여기서 4개의 자질군 ― 문장 및 단어 길이, 어휘 다양성, 빈도어, n-gram ― 에 속하는 총 41개의 특징 데이터 세트(feature sets)을 추출하여 저자 판별을 위한 변별 자질로 삼았다.
첫 번째 분석에서는 어절 및 어휘 형태 빈도(정확률 95.9-98.8%), 어휘 형태 bigram(94.3-98.2%), 기능어 bigram(96.4-98.2%), 문자 bigram(93.6-98.6%), 품사 태그 trigram(94.4-96.6%)이 가장 높은 정확률을 보이는 언어적 자질로 나타났다. 각 자질 중에서 판별력이 가장 높은 20개의 어휘적 요소들은 고빈도에 속하고 텍스트의 내용보다는 문체적인 특징을 반영하는 기능어들이 다수였는데, 이는 영어나 그리스어 등을 분석한 선행 연구들의 결과와 일치하는 점이다. 알고리즘들 중에서는 SVMs와 LDA가 가장 높은 분류 성능을 보였고 kNN이 가장 낮았는데, 이 점은 영어를 대상으로 한 일부 연구들과 차이가 나는 점이다. 두 번째 분석에서는 학습 데이터의 양이 늘어남에 따라 판별 모델의 성능이 향상되는 것을 확인할 수 있었으나 데이터의 양이 일정 수준 이상을 넘어가면 성능의 향상이 둔화되었다. 이 때 문자 bigram 자질과 SVMs 알고리즘을 결합한 모델이 최적의 결과를 보였는데, 약 10,000 어절의 적은 양의 텍스트로 95% 수준의 높은 판별 정확도를 기록하였다. SVMs는 언어적 자질 모두에 걸쳐 그리고 데이터의 양에 상관없이 가장 기복이 덜한 안정적인 성능을 발휘하여 외부 변수들에 가장 영향을 적게 받는 알고리즘으로 나타났다. 문자 bigram과 SVMs의 결합 모델은 세 번째 분석에서도 최적의 성능을 보였는데, 저자의 수가 2명에서 10명으로 늘어나는 동안 가장 기복이 없는 판별 성능을 보였다.
본 연구는 두 가지 점에서 한국어 저자 판별 연구에 기여할 수 있다. 먼저 41개의 다양한 특징 데이터 세트를 이용하여 각 자질의 판별 성능을 확인해 본 연구로서 기존의 연구들과 비교 검증할 수 있는 결과들을 제시하였다. 또한 데이터의 양과 저자의 수 등 두 가지 조건변수들을 이용하여 자동 판별 모델의 실질적 성능을 평가하였다. 따라서 본 연구는 앞으로 이루어질 보다 다양한 장르의 한국어 텍스트를 이용한 저자 판별 연구에서 이용할 수 있는 참고 자료를 제공해 줄 수 있을 것이다.
The purpose of this study is to develop an authorship attribution method using machine learning algorithms and apply it to Korean texts. Authorship attribution is methods or techniques to automatically attribute texts to their authors based on quantif...
The purpose of this study is to develop an authorship attribution method using machine learning algorithms and apply it to Korean texts. Authorship attribution is methods or techniques to automatically attribute texts to their authors based on quantifiable linguistics or stylistic features. Authorship attribution is a highly versatile and practical research field; it can be applied in areas as diverse as literary studies, forensic linguistics, personal and group profiling, spam filtering, and plagiarism detection as well as applied linguistics such as socio-linguistics and historical linguistics. Despite its potential for various research applications, there has been little research on the quantitative or statistical authorship attribution of Korean texts compared to other languages.
This study is carried out through three experimental analyses to answer three research questions: a) what linguistic features lead to the most successful classification in the machine learning classificatory model, b) what are the effects of data size on the performance of the model, c) what are the effects of the number of candidate authors on the computational authorship attribution. The controlled corpus for the analysis is comprised of movie reviews on blogs by ten different authors with one hundred texts by each author. From the corpus forty-one sets of linguistic features in four types of linguistic feature areas ― sentence and word length, vocabulary richness, the most frequent words, and n-grams ― are extracted to serve as stylistic markers to distinguish the authors.
With regard to the first analysis, the frequent words and eojeols (accuracy of 95.9 - 98.8%), word bigram (94.3 - 98.2%), function word bigram (96.4 - 98.2%), character bigram (93.6 - 98.6%), and POS trigram (94.4 - 96.6%) produced the most accurate results. The top 20 prominent discriminators in the first analysis are mainly from the function words having little to do with the specific content of texts, which is consistent with studies on other languages such as English and Greek. Among the algorithms, SVMs and LDA performed best while kNN, which has previously shown to perform well on English, was found to be least effective. In the second analysis, it is found that overall the performance of the classification model improves as the data size increases to some extent. The combined model of character bigrams as a stylistic marker and SVMs as a classification algorithm returned the best result: it needed the least amount of data (ca 10,000 eojeols) to achieve the accuracy of 95%. SVMs also showed stable performance across different feature sets provided and different data size ranges, which means that it is least affected by the external variables. The model of character bigrams combined with SVMs yielded the best result in the third analysis; its performance showed the least fluctuations across all the author sets from two-author through to ten-author groups.
In the development of authorship attribution research in Korean, the main contributions of the current research can be summed up as following: it carried out the most comprehensive analyses using as many as forty-one linguistic feature sets, corroborating the results of the previous studies and, at the same time, adding new insight which challenges some of the results from previous works on Korean. It also conducted analyses taking both parameters of data size and the number of candidate authors into account. It thereby can act as a reference point for future studies on authorship attribution of Korean texts in other genres.
참고문헌 (Reference)
|