《简述编纂日语语料库词典的措施》-日语硕士论文库 摘要:关于《简述编纂日语语料库词典的措施》的日语硕士论文库:从小说和报纸等语料库中选取7600万字,通过检索获得含动词“きれる”的例句1384条,对这些例句中与该动词搭配的名词进行排序,以此作为义项设计的依据;同时参照4部日本国语词典设定10个义项,精选例句试编了语料库例句词典。通过以上实践显示了利用语料库编写词典的优点以及存在的问题,并提出了今后利用语料库编写词典的构想。 关键词:日语语料库;词典编纂;义项;例句词典 0.引言 对日语学习者而言,教科书和词典具有重要的意义,当下各类优秀教材层出不穷,但是词典至今未见可圈可点之作。究其原因,在于国内的“日汉双语词典大多是按选定的蓝本进行逐词逐义项的翻译”(尹学义,2001:7),而且“只是一味参照日本版的国语辞典,没有一个明确的指导思想”(潘钧,2004:24),因此,“靠这种方法编写出来的词典大都不符合我国日语学习者的实际需要”(王锐,2001:59)。笔者认为,最主要的问题在于日本的国语词典不是为外国人编写的,没有考虑到外国人学习日语的需求,因此,即使忠实地将它编译成日汉词典也不能满足国内日语学习者的需要。随着语料库的发展,其应用正深入到语言研究和实践的各个领域,它可以向我们展示仅靠内省无法了解的语言事实和可供选择的海量例句,这给词典编纂方式带来的变革无疑是巨大的。语料库为我们摆脱对日本国语词典的依赖,直接编写外文词典开辟了广阔的天地。对此,日本学者也认为,“语料库的存在对编写非母语词典的编纂者来说会是强有力的帮手”(井上永幸,2003:25),国内学者在论及语料库应用研究时也把词典编纂列为首位(施建军、徐一平,2003)。软硬件条件的成熟和研究的不断深入使得这种尝试成为可能。在日本,利用语料库编写的英日词典《THE WISDOM ENGLINSH-JAPANESE DICTION-ARY》(三省堂,2008年),收词88 000条。该词典的义项以使用频率排序,例如词条press不再将“按、挤、压”作为头条义项,而把“报刊、出版机构”置于首位。在日本,用英语语料库编写词典已获成功,而国内利用日语语料库编写词典也应该多尝试。本文的目的在于利用现有条件,以动词为例,探讨用语料库编写小型例句词典的理论和方法,并将编写词典的实例展示给读者,以引起日语界同人的兴趣和关注,为今后编纂语料库词典创造条件。 1.编写步骤 本次词典编写实践的过程为:1)首先决定语料库和词典的规模;2)挑选作为样本的动词;3)从语料库中抽取动词并对结果进行统计分析;4)参照现有的日本小型词典选择和调整义项;5)根据词频统计安排义项的顺序及选择最佳例句。 2.动词的抽取及其统计分析 作为利用语料库编写日汉词典的初次尝试,本文把编写的词典规模设定为初学者最需要的小型动词例句词典,同时以动词“きれる”为样例词条。本次用于调查的语料库,取自笔者以小说、随笔和剧本为主构建的语料库中的1945—2006年部分(以下简称“小说”),共3800万字。为了保证检索结果的可信性,作为补充材料从日本的报刊《每日新闻》中截取了1998年后半年的全部内容(以下简称“新闻”),规模大致与“小说”相同,为3800万字。两者皆为文本语料库。本次检索的关键词设定为“切れ、きれ、キレ”,排除了“縁を切れずにいる”这类动词“きる”的可能态,同时还排除了“乗り切れる”类复合动词以及“逆切れ”“切れ味”类复合名词,最终从语料库中抽取基本动词用例1384条。①对抽取的例句分别人工填入与“きれる”搭配的名词,然后将抽取的名词按照使用频率进行排序,便可直观地观察到实际的使用状况。因篇幅所限,以下仅列出前45位,共905句,占总数的65%。 动词“きれる”一般与格助词“が”搭配使用,如表1中01的“電話が切れる”;也有用格助词“に”的,如37的“道を左にきれる”;还有用格助词“と”的,如09的“男と切れる”。本次还检索到部分无需和名词共同使用的情况,如02的“今の若者はキレやすい”。“○”表示零价动词。此外,由于部分例句从前后文无法判断词义或属围棋术语,因此没有收入表1。② 3.国语词典义项的调查和设计 本文在设计义项时借鉴了日本1990年代出版的小型国语词典,并对其进行了必要的取舍。本次借鉴的4部词典如下:《三省堂現代国語辞典》(三省堂,1990年),简称《现代》;《例解新国語辞典》(三省堂,1993年第4版),简称《例解》;《新選国語辞典》(小学馆,1996年第7版),简称《新选》;《新明解国語辞典》(三省堂,2001年第5版),简称《新明解》。以上各词典中“きれる”义项的数目不尽相同,最少的是《新明解》,为5项,最多的是《现代》,多达20项。各词典释义也各具特色,没有国内日汉词典那种似曾相识的感觉。国语词典中的义项设计及释义在很大程度上受词典的编辑方针、编纂者自身的语言环境、所受教育程度和交际范围的不同以及语言观的影响,因此各词典义项的数目和释义的不同在所难免。这种随意性虽然反映了日本的词典编纂者保持了自己的个性,少有互相抄袭现象,但如果就词典应该将语言事实如实地呈现给读者这一点而言,这种随意性显然是不足取的。如果将其中一部作为蓝本机械地编译成日汉词典,其弊端也是显而易见的。与此相反,利用语料库检索得到的数据能比较客观公正地反映语言实际使用的情况。如本次使用的语料库大致涵盖和反映了“きれる”的基本用法,基本就可以克服上述传统国语词典的弊病。考虑到本次的词典规模设定为小型例句词典,故不得不舍弃个别冷僻用法。本文将4部词典中同一义项有2部以上词典涉及,并且在语料库检索结果中具有一定使用频率的10个义项作为本词典的义项。具体做法是:先将4部词典共同认定的基本义项设定为基本义项,然后将同一意义的用例分别纳入该义项之下。如果高频率用例中发现已有义项无法解释的例句,则另立一个新的义项,并将余下的例句中相同意义的例句分别纳入该义项下,重复这个过程一直到所有的例句都可对号入座。对意义超出10个义项之外的部分例句,尽可能地纳入与之意义相近的现有义项中,并适当地扩充原有义项的释义范围,使之可以涵盖新的例句。例如,表2⑤中的“頭”“男”就是对释义进行扩充后再纳入该义项的。经过反复调整,我们最终设定10个义项,如表2。 |