텍스트 자동 요약은 문서를 적은 노력으로 이해할 수 있도록 입력 텍스트로부터 핵심 내용을 추출하는 연구 분야이다. 텍스트 자동 요약은 크게 생성 요약과 추출 요약으로 구분된다. 생성 ... 텍스트 자동 요약은 문서를 적은 노력으로 이해할 수 있도록 입력 텍스트로부터 핵심 내용을 추출하는 연구 분야이다. 텍스트 자동 요약은 크게 생성 요약과 추출 요약으로 구분된다. 생성 요약은 문서의 요약을 제공하기 위해 새로운 자연어를 생성해내는 요약 방법으로 아직 자연어 처리 연구 분야에서 사람과 같은 수준의 자연어 생성은 어렵기 때문에 기존 토픽 추출 방법을 적용하는 추출 요약이 주로 연구된다. 추출 요약 중 대표적인 TextRank는 추출 요약을 위해 문서를 그래프로 변환하고 두 문장에 동시에 출현하는 단어의 빈도를 기반으로 문장 간 유사도를 계산한다. 이 문장 간 유사도 계산 방식은 문장 내 단어 간의 의미적 유사성을 충분히 고려하지 못하는 문제점이 존재한다. 이러한 문제점을 해결하기 위하여 본 연구에서는 문장 내의 모든 단어 쌍에 대한 동시 출현 관계를 그래프로 정의하여 단어 간 유사도를 계산하는 방법을 제안한다. 또한 문장 간 유사도 계산 시 단어 간 동시 출현 관계를 적용하기 위한 새로운 문장 벡터 함수를 제안하며, 제안 방법을 통하여 문서에 대한 추출 요약을 수행한다. 제안 방법의 성능과 TextRank와의 성능을 실험적으로 평가하여 비교한 결과, 제안한 방법을 이용한 추출 요약 모델이 보다 정확한 모델이라는 것을 확인할 수 있었다.
Automatic summarization is a research area to extract important information from an input text in order to help users easily understand the document. In general, studies on automatic summarization can be divided into two parts : abstractive summarizat... Automatic summarization is a research area to extract important information from an input text in order to help users easily understand the document. In general, studies on automatic summarization can be divided into two parts : abstractive summarization and extractive summarization. Extractive summarization is more popular than abstractive summarization because recent natural language processing techniques are hard to rephrase the important information from an input text. Therefore topic extraction methods are usually applied to extractive summarization. TextRank, one of the most popular extractive summarization models, calculates sentence similarity using the frequency of co-occurrence words in two sentences when converting a document into a graph. The sentence similarity metric in TextRank has a limitation in that it is not enough to concern semantic similarity of words in a sentence. To overcome this limitation, this proposes a novel extractive summarization model using a graph-based word similarity and sentence similarity. The word similarity is measured by relationships of co-occurrence words in a sentence. A sentence vector function is also proposed to apply the word similarity when calculating the sentence similarity. The performance of the proposed method is evaluated and compared to TextRank. Based on the experimental results, the proposed extractive summarization model was more accurate than TextRank. ,韩语毕业论文,韩语论文 |