이 연구는 단일 주제로서 수작업으로 분류된 한국어 신문 기사를 대상으로 토픽모델링을 실시하여 토픽 모델링 기법이 복합 주제를 가진 문서 분류에 효율적임을 밝히는데 목적이 있다. 이...
이 연구는 단일 주제로서 수작업으로 분류된 한국어 신문 기사를 대상으로 토픽모델링을 실시하여 토픽 모델링 기법이 복합 주제를 가진 문서 분류에 효율적임을 밝히는데 목적이 있다. 이에 따라 본 연구에서는 대규모 신문 코퍼스인 ‘물결 21’ 코퍼스의 주제 분류 12개 중 7개를 활용하여 LDA기법을 채택한 소프트웨어인 MALLET을 사용해 토픽 모델링을 실시한다. 토픽 모델링은 대규모 문서를 자동으로 분류해 줌으로써 많은 양의 문서에 대해 주제를 분류해야 할 때에 활용되는 방법이다.
본 논문에서는 전처리를 마친 ‘물결 21’ 코퍼스에서 불용어를 제거한 후 토픽모델링의 주제 설정 개수를 수작업 분류의 분류표지 7개와 2배수인 14개, 3배수인 21개로 설정한 후 결과를 분석하고 수작업 분류와 비교하는 실험을 진행하여 최종적으로 토픽 모델링의 분류가 잘 되었는지 살펴보았다. 설정한 주제 수를 늘려 실험한 결과, 기존 7개 주제로 분류되었던 기사들이 분류된 주제 내부에서 세부 주제로 나뉘며 점차 세밀하게 분류됨을 알 수 있었다. 다만 문서 내부에 포함된 단어를 기준으로 분류하는 토픽 모델링의 특성상 결과 비교를 위해 수작업 분류와 비교하였을 때 일치하지 않는 경우 역시 발견되었다. 이밖에 5절에서는 실제 지면에 실린 신문 기사를 살펴봄으로써 토픽 모델링의 결과와 수작업 분류가 일치하는 경우와 일치하지 않는 이유에 대해 분석하였다.
이처럼 신문 기사를 대상으로 토픽 모델링 기법을 활용하여 대규모 문서에 대한 주제 분류를 실행하였지만, 본 논문에서 다룬 대상은 2000년에 발행된 조선일보에 한정되며 대규모의 코퍼스인 ‘물결21’ 코퍼스의 일부에 지나지 않는다. 복합 문서를 가진 대큐모 코퍼스에 대한 자동 분류는 반드시 필요하지만 아직 한국어 문서에서 토픽모델링에 대한 연구는 많이 이뤄지지 않았으므로 더 많은 연구가 필요하며, 본 연구는 그런 연구를 위한 단초를 제공한다는 데에 의의가 있다.
,韩语毕业论文,韩语论文题目 |