본 연구는 한국어 자연어 처리를 통해 해당 문장이 정확한 사실을 말하는 문장인지 거짓을 말하는 문장인지 표현하기 위한 연구이다. Hedge는 언어의 표현에 있어서 불확실한 내용을 나타내...
본 연구는 한국어 자연어 처리를 통해 해당 문장이 정확한 사실을 말하는 문장인지 거짓을 말하는 문장인지 표현하기 위한 연구이다. Hedge는 언어의 표현에 있어서 불확실한 내용을 나타내기 위한 언어적 표현으로, 저자가 자신의 글에 내포된 내용이 불확실하거나 의심이 갈 때, 혹은 공손함을 표현할 때 자주 사용되는 표현이다. 이러한 불확실성 때문에 hedge가 포함된 문장은 사실이 아닌 문장으로 간주 할 수 있다. 또한 hedge 문장과 non-hedge 문장을 이용하여 정보검색, 정보추출, 질의응답 시스템 등의 여러 응용 분야에서 전처리 과정에 적용되어 보다 더 정확한 결과를 얻게 할 수 있는 효과를 볼 수 있다.
언어 표현의 정확하지 않은 표현과 공손함을 나타내는 표현은 영어권 보다는 한국어에서 많이 표현된다. 또한 한국어 특성상 한 가지 표현이 많은 다른 응용표현으로 연결되며, 한국어의 특성으로 인해 어순이 자유로운 문맥 자유 언어이고, 한국어의 사용에 있어서 주어의 생략 등과 같은 많은 생략이 자유롭게 이루어지는 특성을 지니고 있다. 이러한 특성으로 인해 한국어의 처리는 어려움이 많기 때문에 형태소 분석이나 구문 분석에서 어려움이 많다.
본 논문에서는 처음으로 시도되는 한국어 hedge 문장 인식을 위해 한국어 hedge 말뭉치를 구축하고, 이로부터 hedge 단서어구들을 추출하여 일반화된 단서어구 패턴을 구축하며, CRF(Conditional Random Fields), SVM(Support Vector Machines)과 같은 기계학습 기법을 이용하여 한국어 hedge 인식 실험하였다. 실험을 통하여 77.28%의 F-measure 값을 얻었으며, 이결과는 영어를 대상으로한 실험 결과인 61.91%보다 15% 가량 높은 수치로 이는 한국어와 영어의 언어적 차이에서 비롯된 결과이다.
,韩语论文题目,韩语论文网站 |