The purpose of this thesis is to construct syntactico-semantical language resources of noun sequential structures in Korean to improve automatic indexing and information retrieval.
Noun sequential structures(NSSs) are frequently used for information ...
The purpose of this thesis is to construct syntactico-semantical language resources of noun sequential structures in Korean to improve automatic indexing and information retrieval.
Noun sequential structures(NSSs) are frequently used for information processing, but the automatic recognition and decomposition of NSSs that make use of the morphological analyzer do not yield satisfactory results yet, since most analyzers available these days adopt rule-based or statistical methods.
These analyzers cannot recognize an NSS as one morpho-semantic unit, but as a sequence of two separate units. This is why we get large amounts of incorrect superfluous information with current information processing systems.
To solve this problem, I constructed a dictionary of NSSs, since a dictionary is an essential component in most NLP systems that determines the performance of the whole system. Systems can recognize and extract an NSS as one morpho-semantic unit by using the NSS dictionary. Most current systems, however, do not employ NSS dictionaries.
This thesis aims to provide syntactico-semantical descriptions of 71,000 NSSs to improve information processing. To this end, I classified the NSSs into two classes: those that have equivalent NPs and those that do not have equivalent NPs. Then, I analyzed semantic relations between these two nouns inside an NSS and provided a formal description of their surface syntactic structures. Besides, I examined the semantic property of individual elements of NSSs and classified the noun-noun sequences in the lexical database in terms of semantic classes of the second noun in an NSS. This lexical database is useful for automatic indexing of full texts in a specific domain, since it enables the NLP system to analyze new NSSs that are not part of our NSS dictionary with reference to semantic classes they belong to.
Information processing systems these days face another problem caused by the morphological disagreement between input words of an NSS and their corresponding variants in real texts. Current systems cannot extract these words, since they do not have any morpho-semantic information concerning the input words and their variants.
I suggest that an NSS and its corresponding variant be represented as the same semantic unit by Local Grammar Graphs(LGGs). Local Grammar(Maurice Gross, 1993, 1995, 1997, 1999) describes the syntactic behaviour of individual elements by using graphs as finite state automata or Directed Acyclic Graphs(DAGs), which accounts for language phenomena that cannot be easily expressed by phrase structure rules.
The NSS dictionary with syntactico-semantical information and the LGGs constructed in this thesis will provide a way of more efficient processing in such NLP systems as machine translation, information retrieval and extraction, automatic text summarization, and automatic indexing.
본 연구는 한국어 문서의 자동 색인 및 정보 처리 시스템에서 가장 중요한 문제의 하나로 지적되고 있는 명사 연결형 구성에 대한 통사·의미적인 연구를 통해 실제 시스템에서 활용될 수 있...
본 연구는 한국어 문서의 자동 색인 및 정보 처리 시스템에서 가장 중요한 문제의 하나로 지적되고 있는 명사 연결형 구성에 대한 통사·의미적인 연구를 통해 실제 시스템에서 활용될 수 있는 효율적이고 체계적인 언어 자원을 구축하는 것을 목적으로 하였다.
2장에서는 합성 명사와 복합 명사구에 대한 국어학적 관점과 전산학적 관점에서의 기존 연구들을 살펴봄으로써 본 연구의 방향과 어휘 분류 기준을 설정하였다. 국어학적 관점에서는 기존 연구들이 대부분 명사 연결 구성을 합성 명사와 명사구로 분리하여 다루고 있지만, 본 연구에서는 실제 대량의 언어 데이터베이스를 대상으로 합성 명사와 명사구를 명확하게 판별하기란 매우 어렵다고 판단하고 합성 명사와 명사구를 아울러 하나의 명사 연결 구성에 대한 언어 자원을 구축하려 하였다. 또한 전산학점 관점에서의 기존 연구들이 연구 과정에서 언어 데이터베이스를 오류를 담고 있는 기존 사전을 그대로 사용하거나 언어 현상을 규칙이나 통계의 방식에 의존하여 명사 연결 구성 어휘들을 처리하고 있기 때문에 형태소 분석과정에서 오류 발생률이 여전히 높다. 본 연구는 언어 처리시 규칙으로 처리할 수 없는 언어 현상들에 대한 처리와 문서에 있음에도 불구하고 형태소 분석의 오류로 인해 정보를 제공받지 못하는 문제를 보완하기 위해 복합어휘를 구성하는 명사 연결 구성 사전을 구축과 함께 명사 연결 구성과 동일한 의미의 명사구를 정보 검색이나 색인 과정에서 동일한 정보로 인식 가능하도록 하기 위해 부분 문법의 방법을 활용한 방법론을 제안하였다.
3장에서는 연구 대상 어휘의 어휘부 구성을 살펴보고 통사-의미적 분석을 위한 어휘 개별적 분석을 시도하였다. 본 논문에서는 기존 연구들에서의 어휘 분류 방식과 달리 언어 처리 과정의 효율성을 고려하여 ‘통사적 대응 구조를 갖지 않는 어휘’와 ‘통사적 대응 구조를 갖는 어휘’로 전체 어휘를 분류하였다. 예를 들면 ‘밤낮’과 같이 의미 전성이 일어나거나 ‘구조개(굴과 조개)’와 같이 음운 변화가 발생된 경우, ‘청량 음료’나 ‘국립 극장’과 같이 통사적 유형화가 불가능하거나 ‘고무 나무’, ‘관계 논리학’ 등과 같이 풀어진 구 형태로 사용될 가능성이 적은 전문 용어류를 ‘통사적 대응 구조를 갖지 않는 어휘’로 분류하였다.
나머지 어휘들은 ‘통사적 대응 구조를 갖는 어휘’로 분류하고 선행 명사와 후행 명사의 의미 관계 분석 및 의미 관계가 반영된 표층 구문 구조로 표현하는 통사적 유형화를 시도하였다. 전체 연구 대상 어휘를 53개의 의미 관계와 360여 개의 통사 구조로 유형화가 가능하였다. 분석된 기초 언어 자료들은 5장에서 시스템에 활용 가능한 사전의 형태로 구축될 것이다.
4장에서는 의미 관계 분석과 통사적 유형화를 위한 데이터베이스를 의미 영역별로 활용 가능하도록 개별 명사의 의미 속성을 이용하여 어휘 분류 작업을 하였다. 기존 연구들을 참고하여 대분류, 중분류 단위로 어휘를 분류하고, 중분류 단위의 단말은 어휘의 개념에 따라 다시 소분류하였다. 소분류 단위의 개념 범주 설정은 후행 명사의 의미가 유사하면 결합 가능한 선행 명사의 유형도 유사할 것이라는 가정에서 분류하였다. 또한 개념 범주의 설정으로 동일 범주 내에서 선행 명사와 후행 명사의 결합 성향에 대한 분석을 시도하였다. 그러나 두 명사 간의 결합은 명사들 간에 결합 가능한 의미 속성의 제약과 같은, 어떤 특정 몇 가지의 규칙만으로는 설명할 수 없음을 확인 할 수 있었다. 그러므로 동일한 개념 범주 내에 속한 유사한 의미의 어휘라 할지라도 선행 명사에 대한 결합 성향은 어휘마다 다르게 나타나기 때문에 경험적 관찰을 통한 어휘 개별적 검증이 필요하다.
5장에서는 3장과 4장에서 분석된 언어 자원에 대한 정보 구조를 살펴보고, 이를 시스템에 적용 가능하도록 사전의 형태로 구축하였다. 사전과 더불어 부분 문법을 활용함으로써 명사 연결 구성과 동일 의미의 명사구가 동일 정보로 인식될 수 있음을 제안하였다. 그러나 부분 문법 그래프(LGG)의 구축은 많은 시간이 요구되는 작업이므로 본 연구에서는 비교적 언어 사용의 패턴이 한정적인 경제 영역에 포함되는 어휘들을 선별하여 부분 문법 그래프를 구축해 보고, 구축된 사전과 부분 문법 그래프를 이용하여 다음 장에서 명사 연결 구성의 인식과 함께 동일한 의미의 명사구를 동일 정보로 인식 가능한지에 대한 실험을 진행하였다.
6장에서는 3장과 4장에서의 분석을 기반으로 구축된 명사 연결 구성 사전과 5장에서 구축된 LGG를 적용하여 두 가지의 실험을 진행하였다. 첫 번째는 동일한 코퍼스를 대상으로 명사 연결 구성 사전을 적용하기 이전과 적용한 후의 명사 연결 구성의 인식 및 처리에 대해 Unitex를 이용하여 구현해 봄으로써 비교해 보았다. 두 번째는 구축된 LGG를 적용한 후 특정 어휘 부류를 대상으로 코퍼스 내에서 명사 연결 구성과 확장된 형태의 명사구를 동일하게 인식 가능한지, 그리고 [BANKRUPT]과 같은 개념 범주 단위로도 정보 색인 및 추출이 가능한지를 실험해 보았다.
실질적인 데이터베이스 분석을 통해 구축된 DECOC-NC-NN 사전을 활용하여 텍스트 분석을 실험한 결과 색인과 관련된 기존 연구 방법론에서는 하나의 의미 단위로 인식하지 못했던 띄어 쓴 형태의 명사 연결 구성을 한 단위의 복합 어휘로 인식 가능하였다. 이렇게 인식된 복합 어휘들은 단순 명사들에 비해 문서 내에서 색인어로서의 활용 가능성이 더욱 높을 것이다. 또한 명사 연결 구성 어휘를 구성하는 두 명사 간의 예상되는 표층적인 통사 구조를 LGG의 형태로 미리 정교하게 구축하고 이를 LGG의 변수 처리의 방식을 활용하여 동일 정보임을 표기할 수 있다. 이는 키워드 매칭 방식에서 나타나는 정보 과잉의 문제와 검색어와 검색 대상 문서 내의 다른 어휘 형태로 인해 발생될 수 있는 정보 누락의 문제를 보완할 수 있을 뿐 아니라 유사 어휘에 대한 정보 추출도 가능하였다. 이외에도 구축된 명사 연결 구성 사전과 LGG의 구축은 두 명사 간의 의미 관계를 기반으로 하며, 복합 어휘의 개별 어휘에 대한 의미 정보를 담고 있기 때문에 기존 방법으로는 제어하기 어려운 의미를 활용한 중의성 제어에 활용 가능할 것으로 예상된다.
,韩语毕业论文,韩语论文 |