对语料库发展历程的回顾通常把语料库语言学探讨粗略地分为三个时期:手工语料库时期、第一代电子语料库时期和第二代电子语料库时期。美国的布朗语料库(BROWN),英国的兰开斯特-奥斯陆/卑尔根语料库(Lancaster-Oslo/Bergen Corpus,简称 LOB),由瑞典隆德大学的 Svartvik 主持的伦敦-隆德英语口语语料库(London-Lund Corpus of Spoken English,简称 LLC)等是第一代电子语料库的代表。20 世纪 90 年代以来,计算机的迅速发展与广泛使用为编制新型、大规模语料库提供了技术支持,第二代电子语料库,如 COBUILD、LONGMAN、BNC 和 ICE 等应运而生。
2.1 学习者语料库的定义及其在中介语探讨中的价值
语料库可以依据不同的选材准则和处理方式进行划分,如按照语料内容可以将语料库分为书面、口语和视频语料库,按照选取时间分为共时、历时语料库,按照语料来源分为单语、双语(平行)、多语、母语和外语学习者语料库等。
2.1.1 学习者语料库的定义
根据杨惠中、卫乃兴的定义,学习者语料库(learner corpus)为“按照一定的设计标准和准则通过科学抽样措施采集、编制而成的学习者语言(口语或书面语)电子文本库”(2017:1),这是一种特殊用途语料库,与一般语料库不同之处在于它记录的是学习者的中介语(interlanguage),而且是指经过计算机处理的二语/外语学习者的真实语言产出的电子文本数据库(Leech,1998:xiv-xx.)。
|