한국어 텍스트 마이닝의 특징 고찰 및 실제 빅데이터에의 적용 [韩语论文]

텍스트 마이닝 기법들은 영어권 문서를 중심으로 활발히 개발되고 다양한 분야에서 활용되었으나, 한국어 텍스트 마이닝에 대한 연구는 상대적으로 제한적이었다. 최근 한국어 텍스트 자료를 포함하는 빅데이터가 증가함에 따라 한국어 텍스트 마이닝의 중요성이 부각되고 있으며, 이에 대한 집중적인 고찰빅데이터에의 적용이 요구되고 있는 시점이다. 본 연구에서는 한국어 텍스트 마이닝의 과정을 정리하고 단계별 특징을 고찰하며 텍스트 자료를 포함하는 실제 빅데이터인 2011 경제총조사의 한식 음식점업 사업체 자료에 적용하여 분석과정에서 발생하는 통계 및 기술적 문제점들을 정리하고 해결 방법을 제시하고자 하였다. 특히 설문조사의 주관식 문항에 대한 응답 형태로 기록된 텍스트 자료에 한국어 텍스트 마이닝을 적용할 경우 발생하는 문제점들을 해결하기 위해, 기존 범용 사전이 아닌 특정 자료에 맞는 피드백 기반 사용자 사전을 구축하는 것을 제안하였다. 피드백 기반 사용자 사전은 수작업으로 구축되며 기준에 따라 편의의 문제가 발생한다는 단점이 있으나 기존 범용 사전의 한계를 보완하고 분석 목적을 효과적으로 달성하는 장점이 있다. 또한 텍스트 자료에 대한 마이닝 결과를 수치 자료로 구성된 구조화된 데이터베이스와 통합하고 군집분석 및 시각화 분석 등의 데이터 마이닝 방법들을 적용하여 전국 한식 음식점업 사업체에서 취급하는 대표 메뉴의 현황과 특성을 다각도로 탐색하였다. 이 결과들은 취급 메뉴의 변경을 고려하고 있는 현 업주 및 한식 음식점 창업을 계획하는 예비 업주들에게 메뉴 선택의 가이드라인을 제시하는 데 기여할 것이라 예상된다. 또한 관련 정부 부처가 영세 사업체들의 적절한 메뉴 변경 유도를 통한 폐업 방지 및 성공하는 창업을 위한 메뉴 선정의 유도 등의 정책을 마련하는데 도움이 될 것이다.

Text mining techniques have been developed largely for English and applied in diverse domains. However, research on text mining for Korean was relatively limited. Due to the recent increase of big data containing Korean text, the importance of Korean text mining has significantly risen and thereby it is time to require intensive considerations and practical applications of big data. In this study, Korean text mining was applied to 2011 Korean Economic Census especially for Korean food restaurants, which is big data containing texts. Through the whole process of the application, this study investigated characteristics of Korean text mining and suggested solutions and/or practical guidelines for statistical/technical issues. In order to overcome limitations of the use of a conventional dictionary, a so-called feedback-based approach was proposed to construct a data-specific dictionary that reflects specific features of data and hence improves the performance of text mining. The results of text mining were further combined with numeric data in the Census to explore current status and characteristics of main menu in Korean food restaurants via data mining techniques, such as clustering and visualization. The final results can be used as guidelines to restaurant owners who consider menu development and/or change. Moreover, the government agencies can enact legislations that prevent small business owners from bankruptcy by changing from pooly designed menu to appropriate menu and enable even beginners to choose menu for successful establishment of restaurant.
