试析对于中国日语学习者的中日对译语料库构建的探讨
文章简述的是构建中的外语学习者语料库的一部分:中国日语学习者中日对译语料库的建设情况。介绍构建学习者语料库的四个主要阶段,即语言资料的收集、各种工具的开发、语料库的研制、语料库的略论。 一、引言 在开发计算机辅助语言教育系统(CALL System)的过程中,其准备工作之一是语料库的研制。语料库可以分成两种类型:母语语料库和学习者语料库(Learners Corpus)。其中学习者语料库特别受到语言教育邻域探讨者的注目。当前论文联盟,世界上的双(多)语语料库均为英语与其他语言的平行语料库,汉语与日语的平行语料库开发较少。随着信息社会的到来和中日交流的不断扩大,越来越多的语言探讨者、教学者以及机器翻译探讨者急需一个大型的中日平行语料库。为此,长沙民政技术大学是于2017年9月开始着手构建基于中国人日语学习者《中日对译语料库》建设的。这个项目是正在进行中的长沙民政职业技术大学外语大学外语学习者语料库建设项目中的一部分。 二、语料库构建的目的 本语料库构建的最终目的是用计算机同时检索中日文语料中的信息,以有助于从语言学角度对中国学习者的日语语言运用进行略论。这些语言略论工作是语料库建设的一个环节,同时对日语教育实践又有着直接的指导意义。 随着全球范围内对日语学习的需求,至今人们已开发了许多类型的日语教育系统。但是,能够认识到学习者第一语言(L1)的不同,而考虑到学习者的母语和目的语的异同,从这个角度开发的教育系统现在还很少。在这种情况下,要开发适用于以汉语为第一语言、以日语为目的语的语言习者教育系统,其初期工作就是首先构建一个中国日语学习者语料库。 三、本语料库的探讨成果与特色 对译语料库与单语语料库相比,最大的特点是双语性和平行性。利用对译语料库进行各种目的的探讨时,应该充分认识并有效利用这一特点。根据我们的实践体会,合理的利用译例,往往可以取得意想不到的效果。为此,对对译语料需要加以分类后,按不同目的重新组合以有效地利用。考虑到以上情况,我们决定构建一个以汉语为第一语言与以日语为目的语的中日双语平行的大型语料库,而且为了从多方面对学习者的语言错误进行定量略论,我们使用独自开发的工具来进行赋码操作。 四、探讨措施 1.语言资料的收集措施。首先构建一个基于中国日语学习者的中日双语平行的大型语料库,日语论文,收录至少有译文的汉语和日语平行语料1000万字,为兼顾多种探讨目的,收录的内容以有探讨价值的中日文学名著为主,兼收剧本、散文、政论文等其他文体的文章,原文和译文全文收录。为满足文学和翻译学学习者的需要,日语毕业论文,部分名著收录多个译本,语料错误率确保在千分之五以内。 2.编辑与电子化。编辑工作包括三个部分:(1)把手写的译文材料电子化,使其成为日中逐句对译的文件形式。(2)在每个文件上附上该学习年龄、性别、出生地、日语学习经历等的基本者的信息。(3)准则上以益冈隆志、田洼行则编著《基本日本语文法》的语法体系为基准,并参考有关中国日语学习者误用例的先行探讨,来设计错误码的目录,并用其进行赋码操作。 电子化过程,是为了便于进行语料库略论和处理,把编辑完的文件变成XML形式。 3.语料库检索工具的研制。一个高水平的语料库需要一个高效率、多功能的检索工具。中日对译语料库要求其检索工具必须具备双语平行检索、关键词检索(KWIC)、句型搭配检索、抽象的句型检索等专用功能。为 |