기계학습 기법을 이용한 문장경계인식 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-28
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

2007년 2월 통계에 따르면, 현재 웹에는 297억 개의 웹 페이지가존재하고 있으며, 2008년 현재 300억 개를 넘어섰을 것으로 추정하고 있다. 이렇듯 넘쳐나는 많은 전자문서들의 내용을 컴퓨터를...

2007년 2월 통계에 따르면, 현재 웹에는 297억 개의 웹 페이지가존재하고 있으며, 2008년 현재 300억 개를 넘어섰을 것으로 추정하고 있다. 이렇듯 넘쳐나는 많은 전자문서들의 내용을 컴퓨터를 통하여 효과적으로 이해 및 전달을 위해서는 형태소분석, 구문분석, 문맥 및 의미분석 등의 자연어처리 기술이 필요한데, 이러한 자연어 처리의 가장 기본 단위인 ‘문장’을 구분하는 작업이 요구된다. 하지만 ‘문장’에 대한 정의만 해도 몇 백 가지가 넘고 문법적으로 정의되어 있지 않아, 문장을 인식하는 것 또한 어려움이 있다. 일반적으로는 문장을 인식하는 데에는 문장부호가 주로 사용되나, 그것 또한 생략되거나 잘못 표기된 경우가 많아 모든 문장을 파악하기에는 어려운 점이 있다. 본 논문에서는 문장부호 또는 문법적인 규칙을 통한 규칙기반의 문장경계 인식기를 구현하여 실험 및 검증을 하고, 규칙으로는 어려운 문제들을 해결하기 위하여 언어의 통계적 특징을 활용하여 보다 범용적인 문장경계 인식기를 제안한다. 이는 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 기계학습 기법을 활용하여 문장경계를 인식하고자 하였으며, 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우, 문장부호로 문장이 종료되지 않은 경우 또는 잘못 사용 된 문장부호 등의 경우에도 적용 가능하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 이외의 다른 언어에서도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다.

Web documents have grown to 29.7billions Feb. 2007. Probably more than 30billions documents are there at now. We need part of speech detecting, context analysis and semantic analysis for using these electronic documents and also understanding efficie...

Web documents have grown to 29.7billions Feb. 2007. Probably more than 30billions documents are there at now. We need part of speech detecting, context analysis and semantic analysis for using these electronic documents and also understanding efficiently. All these techniques are needed disambiguating sentence boundary or detecting end of sentence. But lots of definitions of sentence give us confusing while detecting sentence boundaries. Generally we use punctuation mark for finding sentence boundary, but there are many sentences which does not have punctuation mark or using punctuation marks wrongly. So we need more sophisticated solution for solving sentence boundary disambiguation. This suggests general purpose sentence boundary detection system which uses language statistical information gained from corpus like syllables or lengths around sentence boundary. Besides I tried to use general purpose features which is not related with special domain or language. I tried to learn features through using machine learning techniques empirically. also experimented for two kinds of language Korean and English to confirm the general purpose system. Finally we found out that these features are applied to both languages. There is little modifications for experiments with before, and reasonable result came out.

韩语论文韩语毕业论文
免费论文题目: