TBL 기법을 이용한 개체명 사전 시스템 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

최근 소셜 네트워크 서비스를 다양한 연령층과 많은 사람들이 이용하게 됨으로써 하루에도 수십만 건의 텍스트 데이터가 생산되고 있다. 때문에 빅 데이터에 많은 관심이 집중되고 있고 이 ...

최근 소셜 네트워크 서비스를 다양한 연령층과 많은 사람들이 이용하게 됨으로써 하루에도 수십만 건의 텍스트 데이터가 생산되고 있다. 때문에 빅 데이터에 많은 관심이 집중되고 있고 이 가운데 수많은 텍스트 데이터를 처리하고 더불어 텍스트와 문장으로 이루어진 데이터들이 어떤 의미를 가지고 있는가에 대한 분석도 필요하다. 이러한 텍스트 데이터 처리는 자연언어처리 기술을 통하여 해결할 수 있다. 인간이 발화하는 모든 언어를 자연언어라고 한다. 자연언어처리란 자연언어를 컴퓨터가 처리할 수 있도록 하는 기술을 말한다. 이러한 자연언어처리의 주요 작업 중에서 개체명 인식을 통해 문장 내 구성 요소들이 어떠한 의미를 가지고 있는지 인식 할 수 있다. 개체명 인식이란 문서에서 개체명을 추출하고 추출된 개체명의 종류를 결정하는 일련의 작업을 말한다. 개체명 인식 작업은 오늘날 도래된 빅 데이터 시대에서 텍스트로 이루어진 데이터가 뜻하는 바를 분석 해낼 수 있다. 뿐만 아니라 정보추출, 질의응답, 정보검색 등 다양한 분야에 적용 되어 지고 있다. 개체명 인식 시스템에서 개체명이 문장 내에서 뜻하는 바를 정확하게 결정하는 것이 주요 문제 중 하나이다. 기존의 개체명 인식 방법들은 영어를 기반으로 연구되어졌고 한국어에 적용하는데 어려움이 많다. 문맥상 여러 의미로 표현 되어지는 한국어의 특성상 의미하는 바를 결정하는 것은 어려움이 따르며 많은 시간과 비용이 소모된다. 본 논문에서는 한국어의 특성을 고려하여 정확하게 개체명을 인식하고, 시간 비용을 줄이고자 TBL 기법을 이용한 개체명 사전을 제안한다. TBL 기법을 활용하여 개체명 인식 시스템에 사용될 수 있는 개체명 사전을 구축한다. 본 논문에서 제안한 개체명 사전을 사용하여 개체명 인식 결과 개체명 인식률이 89.3%에서 92%로 증가하였다. 주제어(키워드) 자연언어처리, 개체명인식시스템, 개체명사전, 기계학습, NLP, R, TBL

Hundreds of thousands of text data are been producing because people of variety age group use social network service. It makes that a lot of attention was focused on big data. Also, It is needed to handling so many text data and to analyze what kinds ...

Hundreds of thousands of text data are been producing because people of variety age group use social network service. It makes that a lot of attention was focused on big data. Also, It is needed to handling so many text data and to analyze what kinds of meaning that data which is composed of text of sentence have. These processing of text data can be resolved by natural language processing(NLP). All human languages are referred to as natural language. NLP refers to techniques for natural language so that the computer can process. Through named entity recognition(R), we can recognized that components in sentence has some meaning among the main tasks of NLP. R refers to a series of tasks to extract named entity from document and to determine the extracted object types. R can analysis data made up of text in the big data era. Besides, R can be applied to various fields like extracting information, question and answer, information retrieval. In the R, to determine exactly that what statement means in the entity name is one of the key issues. Existing R methods are usually based on the English language and have difficulty to apply on a Korean language. Korean can make the context which is represented by several meanings, and it makes the meaning of the Korean that consumes a lot of time and money follow difficulty. In this work, suggest the R dictionary using TBL techniques to recognizes the named entity correctly considering the characteristics of Korean, and to reduce the time cost. Using TBL, the technique of building R dictionary that can be used in the R system. Using R dictionary built by this thesis, results of entity recognition probability increased by 92% from 89.3%.

免费韩语论文韩语论文
免费论文题目: