새로운 캐노니칼 디컴포지션 기반의 한글 정규 표현식 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-28
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

Owing to the high expressiveness of regular expression, it is frequently used in searching and manipulation of text based data. Regular expression is highly applicable for processing text in Latin alphabet based script, but the same cannot be equated ...

Owing to the high expressiveness of regular expression, it is frequently used in searching and manipulation of text based data. Regular expression is highly applicable for processing text in Latin alphabet based script, but the same cannot be equated to Hangeul, the writing system for Korean language. Although Hangeul possesses alphabetic features within the script, expressiveness of regular expression pattern is hindered by the absence of Hangeul syllable decomposition. Without decomposition support in regular expression, searching through Hangeul text is limited to string literal matching. Limitation of literal matching has resulted enumeration of syllable candidates in pattern definition indispensable albeit impractical for large set of syllable candidates. Although existing implementation of canonical decomposition in Unicode standard does reduce a composed syllable into smaller unit of letter in consonant-vowel-consonant form, it leaves quite a number of the letters still in compounded form. In this research work, we found that there is a necessity to further reduce the compound letters into basic minimum unit to properly represent the Korean script in regular expression. We will look at how the new canonical decomposition technique proposed by Kim can help in handling Hangeul in regular expression.
In this dissertation, we propose a semi decomposition technique alongside with a notation as an enhancement to the existing regular expression syntax by taking in some of the special consideration and feature of the Korean language. This proposed technique intends to allow an end user to have a greater freedom of defining regular expression syntax for Hangeul.

정규 표현식은 높은 표현력으로 인해 문자기반 데이터의 탐색 및 처리에서 자주 사용된다. 정규 표현식은 라틴문자 기반의 문자들을 처리하는데 상당히 유용하지만 한국어 쓰기 시스템인 ...

정규 표현식은 높은 표현력으로 인해 문자기반 데이터의 탐색 및 처리에서 자주 사용된다. 정규 표현식은 라틴문자 기반의 문자들을 처리하는데 상당히 유용하지만 한국어 쓰기 시스템인 한글에서는 그렇지 못하다. 한글이 문자 내에 알파벳 특성을 갖고 있을 지라도 한글의 음절 분해가 되지 않아 정규 표현식 패턴의 표현력에 어려움이 있다. 정규 표현식에서 디컴포지션 지원 없이 한글 텍스트의 검색은 문자열 매칭에만 한계를 지을 수 밖에 없다. 유니코드 표준에서 캐노니컬 디컴포지션의 구현이 자음-모음-자음 형태에서 문자를 더 작은 단위로 줄일 수 있을 지라도 아주 많은 수의 복합형태의 문자를 만들어 문제를 야기한다. 본 연구에서는 정규 표현식으로 한글 문자를 적절히 표현하기 위하여 복합 문자를 기본적인 작은 단위로 줄이는 것이 필요하다는 것을 알게 되었다. 본 논문에서 김경석교수가 제안한 새로운 캐노니컬 디컴포지션 기법이 어떻게 정규 표현식에서 한글을 처리하는데 도움이 되는지를 보여준다.
본 논문은 기존 정규 표현식 문법의 한 개선방안으로서 한글의
특징을 고려한 세미 디컴포지션 기법을 제안한다. 제안된 기법은 사용자가 한글에 대한 정규 표현식 문법을 정의하는데 보다 편리하게 할 수 있도록 한다.

韩语论文网站韩语论文网站
免费论文题目: