Foreign words are often found in Korean texts. Most foreign words are proper nouns or technical terms, which are not in a dictionary. The variety of transliteration causes index term mismatch problem in Korean information retrieval, so that it influen...
Foreign words are often found in Korean texts. Most foreign words are proper nouns or technical terms, which are not in a dictionary. The variety of transliteration causes index term mismatch problem in Korean information retrieval, so that it influences recall of information retrieval.
This thesis proposes a SVM approach for foreign words identification in Korean texts. We consider the foreign words identification problem as a classification problem. Syllable information, phoneme information, selected phoneme information and selected syllable information are used in providing input vectors for SVM. 9000 training feature vectors are used for SVM learning and 1000 test feature vectors for classification by SVM.
Compared with the baseline, the proposed method improved the accuracy by 2-5%, the precision by 3-6%, the recall by 0.5-3%, and the F-measure by 1.5-4.5, depending on feature selection. The experiment with syllable information, phoneme information, selected phoneme information and selected syllable information showed the best performance. This experiment showed 93.06% accuracy, 96.55% precision, 89.30% recall and 92.78 F-measure(β=1) on 10-fold cross-validation tests.
한국어 텍스트에서 발견되는 외래어의 수는 점점 증가하는 추세에 있다. 외래어는 대체로 고유명사나 전문용어로, 생산적인 어휘 유형이어서 미등록어 문제를 일으키며, 음차 표기 또한 단...
한국어 텍스트에서 발견되는 외래어의 수는 점점 증가하는 추세에 있다. 외래어는 대체로 고유명사나 전문용어로, 생산적인 어휘 유형이어서 미등록어 문제를 일으키며, 음차 표기 또한 단일하지 않아서 정보검색에서 색인어 불일치 문제를 일으켜 재현율에 영향을 미치고 있다.
따라서, 본 논문에서는 SVM을 사용하여 외래어를 인식하는 방법을 제시한다. 외래어 인식 문제는 외래어와 순수 한국어 명사의 분류로 재정의하였다. 음절 정보와 음소 정보, 선별된 음소 정보와 선별된 음절 정보를 자질 벡터 생성에 사용하며, 학습 자질 벡터 9000개에 대해 SVM 학습을 수행하고, 테스트 자질 벡터 1000개에 대해 SVM 분류를 수행한다.
평가 결과, 벡터 생성에 반영되는 정보에 따라 정밀도 88.65%, 정확도 90.69%, 재현율 86.14%, F-measure(β=1) 88.35를 갖는 베이스라인에 비해 정밀도 약 2-5%, 정확도 약 3-6%, 재현율 약 0.5-3%, F-measure 약 1.5-4.5의 성능향상을 보여주었다. 가장 좋은 성능을 보여준 실험은 음절 정보와 선별된 음소 정보, 선별된 음절 정보를 반영하여 자질 벡터를 생성한 실험으로 10-fold cross-validation 테스트에서 정밀도 93.06%, 정확도 96.55%, 재현율 89.30%, F-measure(β=1) 92.78을 나타냈다.
,免费韩语论文,韩语论文题目 |