【摘要】:基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别探讨。探讨实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(ODP)。此外,将笔者开发的识别系统与另一基于N-Gram的语种识别程序TextCat进行对比略论。实验结果表明,该系统对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语作用。
【作者单位】:
南京大学信息管理学院; 1引言随着互联网的发展和普及,Web文本的数量激增,且出现多语种并存的现象。自动识别Web文本所属的语种,对一些有特定需求的自然语言处理过程,如WWW索引(WWW Indexing)、询问(Interrogation)以及推荐阅读(Reading Aids)等,都是必经的一道程序[1]。业界学者们普遍认为,可以把 ,德语毕业论文,德语论文题目 |