中日对译语料库的探讨成果[日语论文]

资料分类免费日语论文 责任编辑:花花老师更新时间:2017-04-12
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。
  所谓语料库是指以计算机为载体承载语言知识的基础资源。如果学习者对某词、短语或句子的用法和意思不是很肯定时,可以借助这些语料库强大的检索功能来得到这些词在日语文章中的用法等信息,这样大多数疑难问题都可以采取类比的方面迎刃而解。语料库可以分为母语语料库与学习者语料库。[1]

  其中最受语言探讨者重视的则是学习者语料库。语料库按照语料的收集准则可分为四类:①异质的。即不以收集特定的语料为目标,大量收集不同种类的语料。②同质的。即只收集具有同一属性的语料。③系统的。即按照制定的准则与比例收集语料,使得收集的语料具有系统性。④专用的。只收集某一特定的语料。此外,按照语料的语种,语料库还可以分成单语的、双语的和多语的。本文要探讨的正是双语语料。

  1 徐一平等学者对中日对译语料库的探讨

  早在1999年,北京外国语学院的日语专业教授徐一平就组织了题为《中日对译语料库的研制与运用探讨》的探讨项目,并在 2017 年成功地建立了中日对译语料库。这一探讨成果可谓是世界首创,关于中日的对译工作可以说有划时代的意义。[2]

  1.1丰富的内容和高效的检索功能。该项目的探讨成果《中日对译语料库》收录中文和日文的文本语料达到了2017万余字。在语言资料的收集上,它不仅满足了自然语言处理探讨运用的实际需要,重视原文和译文的质量,还收录了各种体裁的语料文本,经过大量专家对原文文本和译文文本的层层筛选,最终收集的中日文各种原文文本和译文文本多达 80篇以上。[3]

  它所收集的体裁不再局限于中日对译文章中常见的小说文本,还包括了其他体裁的语料文本,如诗词、散文、人文传记等。再者,为了确保语料的实用价值,它所涵盖的时代包括了近代和现代的各个时期。此外,语料的录入也经历了多次校对,出错率低于万分之五,收录语料的可信度极高。为了便于学习者更好地学习,徐一平等学者还针对中日对译语料库开展了中日语料对齐、句法标注等工作。①原文和译文对齐。原文和译文对齐是形成双语平行语料库的前提条件。然而现有的计算机还不能让中日双语语料自动对齐。所以该探讨团队人为地创造了对齐措施,对该语料库中的所有语料进行了人工对齐,最后使得该语料库中的所有语料在段落上能保持100% 的对齐。它为后继的探讨者利用计算机实现中日双语语料段落自动对齐,甚至是句对齐打下了坚实的基础。[4]

  ②词性和句法标注方面。自然语言处理技术、分词技术以及词性标注技术发展迅速,并且日趋成熟。该探讨团队利用已开发的先进分词、词性标注技术以及句法略论系统,对中日对译语料库中的语料文本进行了整体的分词、词性标注以及初级句法标注。就中文而言,有北京学院开发的汉语分词标注系统SLEX;就日文而言,有日本开发的日语分词标注系统CH ASEN。这些系统加工分词与词性标注的准确率几乎接近百分之百,它们的统计模型都是建立在纯母语语料基础上的,而某些译文语料中留有原文的“记号”,这些“记号”包括人物名称、地方称谓等专有名词,是很多基于母语语料的现有系统无法克服的问题。因此,该探讨团队在开发和研制该语料库时,分别在这些系统中建立了对译语言的中日文人物名称、地方称谓等专有名词词典。此外,该探讨团队还采用了机器自动分词、词性标注与人工校准相结合的探讨措施,使中日双语语料的分词和词性标注的准确率几乎接近百分之百。

  同时,该探讨团队也对少数双语语料进行了初级的句法标注,结果显示无论是中文还是日文,其标注准确率都较高,在60% 以上。语料库最重要的运用功能是检索功能。

  为了满足学习者对检索的需要,该探讨团队与日本日立企业中央探讨所开展了合作,研发出了一套既符合中日对译双语平行语料库特征,又满足学习者使用需要的检索工具。使得使用者能够对中日文语料进行双向检索,获得和检索原文相对应的译文语料,并且实现中日文在同一屏幕内显示。

  由于windows平台能够支持多国语言,所以探讨者把windows系统作为开发中日对译语料库的平台。

  不仅如此,为了提高中日对译语料库的通用性,探讨人员还利用GB2312的内码存储汉语语料,日语论文,利用日本电脑系统常用的编码表ShiftJIS存储日文语料。语料库能满足中日双方学习者的学习需要,并适用于不同版本的windows平台。语料库的实用性和学术价值得以体现,实现了多功能检索。[5]

免费论文题目: