SVM을이용한외래어인식 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-27
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

Foreign words are often found in Korean texts. Most foreign words are proper nouns or technical terms, which are not in a dictionary. The variety of transliteration causes index term mismatch problem in Korean information retrieval, so that it influen...

Foreign words are often found in Korean texts. Most foreign words are proper nouns or technical terms, which are not in a dictionary. The variety of transliteration causes index term mismatch problem in Korean information retrieval, so that it influences recall of information retrieval.
This thesis proposes a SVM approach for foreign words identification in Korean texts. We consider the foreign words identification problem as a classification problem. Syllable information, phoneme information, selected phoneme information and selected syllable information are used in providing input vectors for SVM. 9000 training feature vectors are used for SVM learning and 1000 test feature vectors for classification by SVM.
Compared with the baseline, the proposed method improved the accuracy by 2-5%, the precision by 3-6%, the recall by 0.5-3%, and the F-measure by 1.5-4.5, depending on feature selection. The experiment with syllable information, phoneme information, selected phoneme information and selected syllable information showed the best performance. This experiment showed 93.06% accuracy, 96.55% precision, 89.30% recall and 92.78 F-measure(β=1) on 10-fold cross-validation tests.

한국어 텍스트에서 발견되는 외래어의 수는 점점 증가하는 추세에 있다. 외래어는 대체로 고유명사나 전문용어로, 생산적인 어휘 유형이어서 미등록어 문제를 일으키며, 음차 표기 또한 단...

한국어 텍스트에서 발견되는 외래어의 수는 점점 증가하는 추세에 있다. 외래어는 대체로 고유명사나 전문용어로, 생산적인 어휘 유형이어서 미등록어 문제를 일으키며, 음차 표기 또한 단일하지 않아서 정보검색에서 색인어 불일치 문제를 일으켜 재현율에 영향을 미치고 있다.
따라서, 본 논문에서는 SVM을 사용하여 외래어를 인식하는 방법을 제시한다. 외래어 인식 문제는 외래어와 순수 한국어 명사의 분류로 재정의하였다. 음절 정보와 음소 정보, 선별된 음소 정보와 선별된 음절 정보를 자질 벡터 생성에 사용하며, 학습 자질 벡터 9000개에 대해 SVM 학습을 수행하고, 테스트 자질 벡터 1000개에 대해 SVM 분류를 수행한다.
평가 결과, 벡터 생성에 반영되는 정보에 따라 정밀도 88.65%, 정확도 90.69%, 재현율 86.14%, F-measure(β=1) 88.35를 갖는 베이스라인에 비해 정밀도 약 2-5%, 정확도 약 3-6%, 재현율 약 0.5-3%, F-measure 약 1.5-4.5의 성능향상을 보여주었다. 가장 좋은 성능을 보여준 실험은 음절 정보와 선별된 음소 정보, 선별된 음절 정보를 반영하여 자질 벡터를 생성한 실험으로 10-fold cross-validation 테스트에서 정밀도 93.06%, 정확도 96.55%, 재현율 89.30%, F-measure(β=1) 92.78을 나타냈다.

免费韩语论文韩语论文题目
免费论文题目: