[摘要]英语教学论文语料库和语料库语言学虽然作为新生事物和新生学科发展的时间并不长,但是其发展的速度非常快。电脑的推动是其发展迅速的一个非常重要的原因。本文将对语料库及其发展做简要介绍,并对其在语言教学中的应用做简要介绍。 [关键词]语料库;语料库语言学;词汇列表;文本 1.引言 语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。这些未经加工的材料是语言统计的基础,是略论和探讨语言规律,编纂辞书,利用计算机加工自然语言以及语言教学绝好的第一手资料。语料库的使用早在几百年前就开始了(Kennedy 2017:13-15)。但是,过去的“语料库”是非计算机操作,人们把需要的句子抄在卡片或纸条上,然后对其检索。所以这种现象我们只能称之为语料库措施,而非现代意义上的语料库。语料语言学(corpus linguistics)是以语篇(text)语料为基础对语言进行探讨的一门学科,是计算语言学(computational linguis-tics)的一个分支。语料库以计算机检索为手段。计算机有一个强大的检索功能,这是人所不及的。语料库中聚集了大量文本,而计算机对任意大的语料库进行检索易如反掌。所以,有人认为术语“语料库语言学”应为“计算机语料库语言学”(Leech 1997:1)。近几十年来,语料库(Corpus)的探讨和创建取得了巨大的进展,国内外出现了众多各种类型的语料库。在语言教学与探讨方面,语料库和语料库语言学(Corpuslinguistics)一直发挥着非常重要的影响,从理论、内容和措施等方面对语言教学与探讨都有重要作用。当前在中文和英文教学中均运用到了语料库。 2.语料库探讨 回顾在现代西方语言探讨中,语言学家由于探讨的范围不同,使用的措施不同,所持的态度不同,而形成了不同的主义或流派。但不论属于哪个主义,何种流派,语言学家大都是在充分掌握语料的基础上,通过对语料的略论、对比、假设、综合等手段来描述和解释语言的。一般来说,语言学家获取语料的措施,主要有以下三种:(1)依赖自己的语言直觉(intuition),通过自我内省(self-retrospection),自造例证;(2)以取样调查的措施(sampling technique)收集有代表性的语料,并建语料库(corpus work);(3)进行诱导询问(elicitaton),发放调查表,向合作人提问诱导来获取经过验证的语料。这三种措施虽然各有各的用途,各有各的优点,但使用最普遍的是第(2)种措施,这就是建语料库。近十年来,国内外许多探讨(如Biber et al,2017;Cheng et al,2017:173-186;Conrad,2017;Flowerdew,1998:541-552;Ghadessy et al,2017;Hunston,2017;Granger,1998;Kennedy,1998;Marco,2017;Sinclair,1991;Thurstun&Candlin,1998:267-280;Tod,2017:91-102;Bonelli,2017:205-243;何安平,2017:127;濮建忠,2017:438-445;吴筱玫,2017:265-268;章柏成,2017:108-111)从不同的角度对语料库在英语词汇教学和语言教学中的运用等进行了略论和研讨,语料库在教学中的运用越来越得到人们的重视。但是,总的来说,在我国的英语教学方面,语料库的运用程度还远远不够。英语语料库的探讨与创建可以分为三个时期,即手工语料库时期、第一代电子语料库时期和第二代电子语料库时期。在机读语料库出现之前,学术界就有手工收集全真语言文本进行语言探讨和略论的传统。1959年,伦敦大学语言学教授Randolph Quirk宣布建立“英语用法调查”(SEU)语料库的计划,有计划地收集不同语体的大量语料,并利用计算机对收集到的语料进行储存、分类。语言科学史上的第一个较大型的电脑语料库从此诞生了。在SEU语料库创建不久,英语语料库的编制进入了电子或电脑化时代。第一代电子语料库时期创建了不少语料库,主要有布朗语料库、兰开斯特—奥斯陆/卑尔根语料库(LOB语料库)和伦敦—隆德语料库。六十年代初,美国布朗大学(Brown University)的两位语言学家Nelson Francis和Herry Kucera继Quirk之后,建起了第一个计算机可读的(machine-readable)布朗语料库(Brown Corpus)。此后不久,G.Leech(Lancaster大学),S.Johansson(Oslo大学)和K.Hofland(Bergen大学)三方协同,依据布朗语料库的模式,建起了“兰开斯特—奥斯陆/卑尔根语料库”(The Lancaster-Oslo/Bergen(LOB)Corpus)。与BrownCorpus所不同的是,LOB Corpus还能对英语的不同变体(varieties)进行略论探讨。此外还有科哈普尔印度英语语料库、惠灵顿新西兰书面英语语料库和澳大利亚英语语料库。第二代电子语料库,即当代英语语料库,主要包括COBUILD语料库、朗文语料库网、英国国家语料库和国际英语语料库。Sinclair教授领导的“柯林斯-伯明翰语料库”( CollinsBirmingham University International Language Database;简称为COBUILD,1980年计划编辑含5百万的具有足够代表性的英语库,由于利用了计算机,COBUILD语料库至1996年2月,所含的语料库已由原来的6百万次扩展到2亿次,成为当今世界上最大的英语库之一。英国国家语料库(British National Corpus,以下简称BNC)的书面语占总库的90%,口语占10%。Brown语料库不包括口语,书面语的收集措施和BNC有很大不同,英语论文,其结构见何安平(2017:141-143)。BNC的文本长度参差不齐,长的达436 048个单词,短文本只有25个单词;而Brown把文本的长度固定在2 000词左右,超出则删除。LOB(与Brown结构相同)语料库的文件长度平均为2 013单词左右。在中文语料库的建设方面也取得了不可小觑的成就。现在的国际网路上有不少免费中文语料库。在中国,北京语言文化大学(BeiJingLanguage and Culture University Institute of Language Information Process-ing)有以书面资料的语料库,该资料库来源有人民日报、前现代及后现代的短篇文章或小说、百科全书及其他类型的书面文本。有两个不同的检索措施:一个是以“字”为主的搜寻,另一个是一“字词”为主的搜寻,可连接到此一语料库:URL::8089/ccirlogin?input=*北京大学现代汉语语料库为另一资源:URL:%5Fcorpus/xiandaihanyu/由中国国家语委开发的另一个线上汉语语料库:URL::8080/ 3.语料库在英语词汇教学中的运用 |