과거의 구조주의와 유사하게 한국어 형태론에 관한 기존의 전산 모형은 선형적인 것들로 단어 내부구조 형성보다 형태소의 분리 문제나 연쇄에만 관심을 두고 있다. 이러한 선형적 전산모형을 구문 분석 과정과 통합적으로 고려할 경우, 구문 단위 요소의 형성을 위해 형태소 분석 결과를 묶어야만 하는 추가적인 과정이 필요할 뿐만 아니라 의미적 직관성을 얻기도 어려웠다. 본 논문에서는 형태소 분리와 구문 요소 형성뿐만 아니라 단어의 구조 분석까지도 통합적으로 다룰 수 있는 단어통사론적 시각에 따른 전산 모형을 제안한다. 본 논문에서 제안하고 있는 전산 모형은 중재부와 같은 비효율의 원인이 되는 추가적인 부문이 필요 없다. 또한 문장 통사 분석기에 비가시적이거나 부분 가시적이다. 즉, 문장 통사 분석기는 개개의 형태소들은 참조할 필요가 없고 자질 제약이나 자질 연산에 의해 형태소들을 묶어 형성한 최대 단위(문장 통사부 입장에서는 최소 단위, 문법 단위, 혹은 원자 단위)만을 참조하면 된다. 본 논문의 궁극적인 목표는 자연언어처리 응용에 적용할 수 있을 정도의 계산론적으로 충분히 효율적이고, 언어학 분야에서 모의실험 도구로 사용할 수 있는 알고리즘을 설계하고 개발하는 것이다.
제안하는 단어의 계층적 구조 분석 알고리즘이 근간으로 하고 있는 형태부의 모습은 자질을 갖춘 형태소 목록과 형태론적 변형을 다루기 위한 규칙, 그리고 형태소 목록을 이용한 단어의 형성을 위한 규칙을 갖는 모습이다. 형태소 목록은 TRIE 자료구조의 사전에 음절 단위로 저장되고, 사전은 언어정보의 제공과 함께 형태소 분리 역할을 담당한다. 형태소 분리와 형태론적 변형을 동시에 다루기 위한 철자규칙은 2단계 형태론의 형식화를 사용하고 있으며, 초기 2단계 형태론과는 달리 형태소 결합의 합법성 여부에는 관여하지 않고 단지 변형이 발생한 표층형 단어를 어휘형으로 환원하는 일만을 수행한다. 추가적으로 형태론적 변형에 따른 범주 문맥을 반영하기 위해 기능성 구분문자를 제안하고, 2단계 규칙의 저수준의 표현인 유한상태 변환기에서 2단계규칙들 간의 의존성을 반영하기 위해 두 종류의 상관성 제약을 제안한다. 제한하는 전산 모형은 형태소들과 어휘구들간의 계층관계를 파악하기 위해 단어 형성 규칙으로 문맥자유문법 규칙을 사용하고 있으며, 파싱 알고리즘으로는 GLR 알고리즘에 기반한 방법을 사용한다. GLR 알고리즘은 통상적으로 단위(단어)의 경계가 분명한 문장의 통사 구조 분석에 사용되는 알고리즘이므로 이를 단위(형태소)의 경계에 대해 다중의 해석을 갖는 단어의 내부 구조 분석에 적용하기 위해서는 알고리즘을 변경해야만 한다. 이를 위해 본 논문에서는 음절 단위로 TRIE 노드를 전이함과 동시에 유한상태 정점을 통과하여 해석된 결과를 입력으로 받아 그래프 구조화 스택을 완성해나가는, 넓이-우선 탐색이면서 서로 교호적으로 동작하는 알고리즘을 제시한다.
본 논문에서 전체에 걸쳐 유지되고 있는 형태론적 관점은 생성문법의 변형은 파생 형태론에서 사용될 수 없다고 주장하는 약어휘론적 가설이다. 약어휘론적 가설은 파생만이 형태부에서 발생하는 것이고 파생과 반대 현상인 굴절은 문장 통사부에서 발생한다는 입장이다. 그러나 약어휘론적 입장이든, 강어휘론적 입장이든, 심지어 선형적 입장일지라도 제안하는 모형은 사용자가 정의한 단어 형성 규칙에 따라 동작한다. 따라서 제안하는 모형은 단어 형성 규칙을 위한 규칙 분석기를 내장하고 있다.
제안하는 모형은 자질 구조와 자질구조에 관한 논리적 연산 장치를 가지고 있지 않다. 그러나 약간의 알고리즘의 수정만으로도 자질 기반 접근 방법으로 변환이 가능하다는 것을 보이기 위해, 본 논문에서는 알고리즘을 변경하는 방법과 구구조 기반 접근법, 자질 기반 접근법에 관한 두 종류의 사례를 제시한다. 마지막으로 제안하는 모형의 효율성을 입증하기 위해 약 96만 어절을 분석하는데 소요된 시간에 관한 평가 결과를 제시한다.
,韩语论文,韩语论文题目 |