基于N-Gram的文本语种识别探讨[德语论文]

资料分类免费德语论文 责任编辑:茜茜公主更新时间:2017-05-22
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。
【摘要】:基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种文本进行语种自动识别探讨探讨实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(ODP)。此外,将笔者开发的识别系统与另一基于N-Gram的语种识别程序TextCat进行对比略论。实验结果表明,该系统对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语作用。

【作者单位】: 南京大学信息管理学院;
【关键词】
【基金】: 南京大学文科青年创新团队培育项目“基于语义的知识管理系统模型探讨”的探讨成果之一
【分类号】:TP391.1
【引言】:

1引言随着互联网的发展和普及,Web文本的数量激增,且出现多语种并存的现象。自动识别Web文本所属的语种,对一些有特定需求的自然语言处理过程,如WWW索引(WWW Indexing)、询问(Interrogation)以及推荐阅读(Reading Aids)等,都是必经的一道程序[1]。业界学者们普遍认为,可以把

德语毕业论文德语论文题目
免费论文题目: