본 연구는 도서의 메타데이터 중 서명, 목차, 책소개를 분류자질로 하여 계층적 클러스터링 기법으로 도서의 자동분류를 위한 방법을 연구하였다. 이를 위해 경북대학교 도서관 홈페이지에... 본 연구는 도서의 메타데이터 중 서명, 목차, 책소개를 분류자질로 하여 계층적 클러스터링 기법으로 도서의 자동분류를 위한 방법을 연구하였다. 이를 위해 경북대학교 도서관 홈페이지에서 2년 치 소장목록을 수집하였다. 이 중 한국어 도서이면서 ISBN과 분류기호가 모두 있는 도서를 선정하여, 인터넷 서점 ‘알라딘’에서 목차, 책소개, 출판사 제공 책소개 정보를 수집하였다. 수집한 정보에서 명사만을 추출하여 분석에 사용하였으며, R 언어를 사용하여 열다섯 가지 분류자질과 6가지 유사도 척도, 7가지 클러스터링 기법을 비교 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, 6가지 유사도 척도에 따른 클러스터링 실험에서 코사인 계수가 평균적으로 가장 좋은 성능을 나타냈다. 둘째, 7가지 클러스터링 기법에 따른 실험 결과에서는 와드 기법이 다른 기법에 비해 상대적으로 매우 좋은 성능을 보여주었다. 셋째, 분류자질을 대상으로 한 클러스터링 비교에서는 단일 분류자질보다는 결합 분류자질이 더 좋은 성능을 나타냈으며, 단일 분류자질을 두 가지보단 세 가지를 결합하는 것이 더 좋은 성능을 나타냈다. 넷째, 결합 분류자질 중 「서명, 목차, 출판사 제공 책소개」를 코사인 계수로 유사도를 산출하고 와드 기법으로 클러스터링한 결과가 가장 좋은 성능을 나타냈다. 본 연구는 도서의 여러 메타데이터 중 도서의 정보가 가장 많은 책소개 정보를 사용하여 계층적 클러스터링 기법으로 도서를 자동분류의 성능을 제시하는 것에 의의가 있다. 앞으로의 연구에서는 더 많은 도서를 대상으로 분석하여 현재의 자동분류 문제점을 개선하기 위한 후속연구 필요하다.
This study examined existing automatic classification methods to find out whether they can be effectively used for automatic classification of books. In particular, hierarchical clustering methods using criteria such as title, table of contents and de... This study examined existing automatic classification methods to find out whether they can be effectively used for automatic classification of books. In particular, hierarchical clustering methods using criteria such as title, table of contents and description of books were examined in detail. To conduct this study, we first collected online library catalog metadata - title, table of contents, and description of books - from the Central Library of Kyungpook National University homepage and from Aladin, the bookseller. Using all of these library catalog metadata, we extracted only noun words, and using these words, we constructed a document-term matrix. Then, in order to find out the best combination of method we used various similarity measures (e.g., Cosine Coefficient) and clustering methods (e.g., Ward’s Method) using the R language. The findings of this study are as follows: First, among six similarity measures we used, cosine coefficient measure performed the best. Second, among six clustering methods we used, the Ward’s method performed the best. Third, in general, using multiple classification features produced better results than using a single classification feature. Lastly, the result indicated that combining Ward’s method with the cosine coefficient performed the best when ‘title’, ‘table of contents’, and ‘description of books’ are used together. In a nutshell, automatic classification of books appears to perform well when hierarchical clustering methods are used with the description of books. Additional studies should be conducted to verify this study's result and find the most optimal automatic classification method of books. ,免费韩语论文,韩语论文题目 |