이 논문의 연구 목적은 다음과 같다.
1. 자연언어처리 기술을 이용하는, 대규모의 기계가독형 입말 자료 뭉치를 입말뭉치라 정의하고, 입말뭉치의 개발 과정과 연구 방법, 목적에 대해 알아...
이 논문의 연구 목적은 다음과 같다.
1. 자연언어처리 기술을 이용하는, 대규모의 기계가독형 입말 자료 뭉치를 입말뭉치라 정의하고, 입말뭉치의 개발 과정과 연구 방법, 목적에 대해 알아본다.
2. 입말뭉치에서 논의되는 전사의 요건과 수준에 대해 살펴본다.
3. 한국어를 대상으로 한 입말뭉치를, 기본적인 글자법 수준으로 전사하는 효과적인 방법에 대해 연구한다.
4. 철자법 수준으로 전사된 입말뭉치에 운율 요소를 추가로 전사하는 방법에 대해 논의한다.
2장에서는 입말뭉치의 개념을 정의하고, 그 가공 과정과 말뭉치를 기반으로 한 입말의 연구 방법과 목적을 음성 말뭉치와 비교하여 설명하였다. 이 부분은 본문에서 제시하는 입말뭉치 전사 수준에 대한 이론적인 뒷받침이며, 음성 연구와 입말 연구의 중요한 차이를 보이는 것이다.
3장에서는 입말뭉치의 전사의 요건과 함께 전사 수준과 전사 요소 선정에 대한 논의를 살펴보았다. 입말뭉치는 기본적으로 기계가독형으로 개발되어야 하는데, 이를 위해서는 입말의 특성을 살리면서도 동시에 표준화 작업이 이루어지는 전사 방법이 필요하다. 또, 입말뭉치의 전사는 보통의 전사와는 다르게 전사 단계에서 이후의 개발 방법인 마크업과 주석, 응용의 단계를 고려해야 한다. 즉, 4장과 5장에서 설명된 전사 방법은 이러한 점을 고려하여 개발되었다.
4.1장에서는 실제 개발된 연세말뭉치4를 대상으로 하여, 입말뭉치 개발에 문제가 되는 한국어 입말의 특징을 음운과 어휘, 문장 표현으로 나누어 살펴보았다. 4.2장에서는 한국어 입말뭉치 개발을 위해, 발화 단위 표현과 띄어쓰기, 축약형의 전사 방법, 간투적 표현, 불완전하게 발화된 단어와 자기 정정 발화, 비표준 발음과 비표준 축약형, 외래어와 외국어의 전사, 쉼의 표현과 표현적 음장, 준음성, 텍스트의 종류 표현을 위한 마크업 등에 대해 논의하였다. 입말뭉치는 입말의 특성을 잘 나타냄과 동시에 그 자료를 기계가독형으로 개발해야 한다. 이를 위해서 음운적 변이형은 표준화 작업을 거쳐야 하고, 간투적 표현과 불완전하게 발화된 단어 등은 특별한 마크업이 필요한데, 4.2장에서는 이를 위한 효과적인 방법으로 입말형 사전에 등록해야 할 변이형들과 전사 작업을 효율적으로 진행시키기 위한 목록과 마크업 방법 등을 제시하였다.
5장에서는 한국어 운율 전사 입말뭉치를 개발하기 위해, 한국어 운율 요소로 발화 단위와 억양, 악센트, 장단, 쉼을 선정하여 논의해 보았다. 그런데 한국어 운율에 대한 논의가 체계적으로 이루어지지 않은 상태이기 때문에, 시험적으로 특정 한 운율 이론에 기대어 운율 요소에 대한 검토와 비판을 거친 후 입말뭉치에 표현해 보았다. 마지막으로 6장에서는 이 논문에서 다루지 못한 남은 문제점들을 제시하였다.
The purposes of this are as follows :
1. Defining a spoken language corpus as the large machine-readable collection of spoken language used in natural language processing and then examining the processing, the method, and the purpose of a spoke...
The purposes of this are as follows :
1. Defining a spoken language corpus as the large machine-readable collection of spoken language used in natural language processing and then examining the processing, the method, and the purpose of a spoken language corpus,
2. discussing the factor and the level of a transcription system in a spoken language corpus,
3. studying the effectual method of a standard orthographic transcription for spoken Korean corpos,
4. discussing the method of a supplementary prosodic transcription to the orthographic transcription.
Chapter 2 defines a spoken language corpus and explains the processing, the method and the purpose of a corpus-based study of a spoken language, by comparing with a speech corpora. This is a theoretical background about the levels of corpus transcription which is proposed in this , and explains the important difference between the study of a speech and of a spoken language.
Chapter 3 discusses the level and the elements of a transcription system with the factor of it. A spoken language corpus has to be basically developed in a machine-readable form basically, and for this it is necessary to design a transcription system which represents the features of a spoken language and regularize each variant as well. Aside from a general transcription, it has to be considered the processing after a transcription, that is, a mark-up and annotation in a corpus transcription. So the transcription systems in chapter 4 & 5 are designed to consider this.
Chapter 4.1 describes the phonological, lexical and verbal features of spoken Korean which may be problems in a corpus transcription, using the Yonsei Corpus 4. To design a spoken Korean corpus, chapter 4.2 studies sentence boundaries, spacing words, reduced word forms, interjections, incomplete words, self-corrections, nonstandard forms, a word of foreign, pauses, expressive lengthening, non-verbal sounds, the mark-up for a representation of text, etc. A spoken language corpus has to be developed in a machine-readable form and represent the features of spoken language. For this nonstandard forms have to be regularized, and interjections and incomplete words, etc necessitate mark-ups. So chapter 4.2 proposes the dictionary for special spoken forms, the conversion table for variants, and the mark-ups that can help to transcribe more effectually.
Chapter 5 discusses the Korean prosodic features, that is, units, intonation, accents, lengthening, pauses to transcribe a spoken Korean prosodically. But because the study of Korean prosody is not yet completed systematically, the corpus is designed in accordance with a special prosodic theory after analyzing these prosodic features. Finally chapter 6 discusses the problems remained to be solved.
,韩语毕业论文,韩语论文 |