Owing to the high expressiveness of regular expression, it is frequently used in searching and manipulation of text based data. Regular expression is highly applicable for processing text in Latin alphabet based script, but the same cannot be equated ...
Owing to the high expressiveness of regular expression, it is frequently used in searching and manipulation of text based data. Regular expression is highly applicable for processing text in Latin alphabet based script, but the same cannot be equated to Hangeul, the writing system for Korean language. Although Hangeul possesses alphabetic features within the script, expressiveness of regular expression pattern is hindered by the absence of Hangeul syllable decomposition. Without decomposition support in regular expression, searching through Hangeul text is limited to string literal matching. Limitation of literal matching has resulted enumeration of syllable candidates in pattern definition indispensable albeit impractical for large set of syllable candidates. Although existing implementation of canonical decomposition in Unicode standard does reduce a composed syllable into smaller unit of letter in consonant-vowel-consonant form, it leaves quite a number of the letters still in compounded form. In this research work, we found that there is a necessity to further reduce the compound letters into basic minimum unit to properly represent the Korean script in regular expression. We will look at how the new canonical decomposition technique proposed by Kim can help in handling Hangeul in regular expression.
정규 표현식은 높은 표현력으로 인해 문자기반 데이터의 탐색 및 처리에서 자주 사용된다. 정규 표현식은 라틴문자 기반의 문자들을 처리하는데 상당히 유용하지만 한국어 쓰기 시스템인 ...
정규 표현식은 높은 표현력으로 인해 문자기반 데이터의 탐색 및 처리에서 자주 사용된다. 정규 표현식은 라틴문자 기반의 문자들을 처리하는데 상당히 유용하지만 한국어 쓰기 시스템인 한글에서는 그렇지 못하다. 한글이 문자 내에 알파벳 특성을 갖고 있을 지라도 한글의 음절 분해가 되지 않아 정규 표현식 패턴의 표현력에 어려움이 있다. 정규 표현식에서 디컴포지션 지원 없이 한글 텍스트의 검색은 문자열 매칭에만 한계를 지을 수 밖에 없다. 유니코드 표준에서 캐노니컬 디컴포지션의 구현이 자음-모음-자음 형태에서 문자를 더 작은 단위로 줄일 수 있을 지라도 아주 많은 수의 복합형태의 문자를 만들어 문제를 야기한다. 본 연구에서는 정규 표현식으로 한글 문자를 적절히 표현하기 위하여 복합 문자를 기본적인 작은 단위로 줄이는 것이 필요하다는 것을 알게 되었다. 본 논문에서 김경석교수가 제안한 새로운 캐노니컬 디컴포지션 기법이 어떻게 정규 표현식에서 한글을 처리하는데 도움이 되는지를 보여준다. |