전문분야 사전과 코퍼스 및 외래어 인식에 기반한 전문용어 추출 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27

전문용어란 특정 분야의 개념의 언어적 표현을 말한다. 특정 분야의 기술 발달은 새로운 개념을 지칭하는 새로운 전문용어를 생성한다. 대부분의 이러한 전문용어는 사전에 등재되어 있지 ...

전문용어란 특정 분야의 개념의 언어적 표현을 말한다. 특정 분야의 기술 발달은 새로운 개념을 지칭하는 새로운 전문용어를 생성한다. 대부분의 이러한 전문용어는 사전에 등재되어 있지 않으며, 형태소 분석기나 정보검색 시스템과 같은 자연언어처리 시스템의 오류를 발생시킨다. 따라서 전문용어를 처리하는 효과적인 자연언어처리 시스템을 구축하기 위해서는 전문용어를 추출하는 작업이 필요하다. 본 논문은 전문분야 코퍼스와 사전 그리고 외래어의 자동 인식기반한 전문용어 추출 기법을 제안하고자 한다. 빈도수와 같은 통계정보나 언어정보만을 사용한 기존 연구와는 달리 본 논문에서는 통계정보, 외래어 정보, 사전정보를 이용하여 전문용어를 추출한다. 통계정보는 코퍼스에 나타난 유사어 인식, 띄어쓰기 에 따른 한국어의 이형태 인식, 명사구 사이의 내포관계, 명사구의 빈도수에 기반한다. 외래어 정보는 한국어의 음차 표기된 외래어를 자동 인식하는 것에 기반하며, 사전 정보는 전문분야 사전에 대한 정보에 기반한다. 본 논문의 기법은 정확율과 재현율면에서 성능향상을 보였다.

Technical terminology is a linguistic expression of a concept in the specific fields. The growth of technologies in the specific domains, produces a new terminology which corresponds to a new concept. Most of these terminology are not in a dictionary ...

Technical terminology is a linguistic expression of a concept in the specific fields. The growth of technologies in the specific domains, produces a new terminology which corresponds to a new concept. Most of these terminology are not in a dictionary and cause several errors in a natural language processing system such as morphological analyzer and information retrieval system. As a result, automatic extraction of terminology is important for construction of efficient natural language processing system which can treat a terminology.
This thesis propose new method for automatic extraction of terminology which based on, a corpus, a machine readable dictionary in the specific domains and automatic detection of foreign language. Unlike previous works which use only a linguistic filter, statistical information such as a frequency, this method use mainly three information, statistical infomation, foreign information, and dictionary information. Statistical information is based on detection of similar word in a corpus, detection of a different nominal sequence by space position in Korean, frequency, a nested relation between a noun phrase. Foreign information is based on detection of a transliterated foreign word in Korean and dictionary information is based on dictionaries in the specific fields. Our proposed method improves accuracy rate and recall rate.
