日语语言文体探讨中的计量措施[日语论文]

资料分类免费日语论文 责任编辑:花花老师更新时间:2017-04-14
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

  摘 要:借助原文语料库和计算机技术可以定量地略论日语的词汇和句子,主要考察对象包括句子长度、名词比率、MVR和会话文比率等,通过对这些指标的大规模数据统计和对比略论可以探索日语语言文体特征。以此为基础对宫泽贤治童话著作的各项指标进行了考察和对比略论,分别计算了其句子长度和描写性语言的分布情况,得出了其个人的文体特征,验证了用计量措施探索日语语言文体特征的可操作性。
中国论文网
  关键词:日语语言 文体 计量措施 语料库
  一、相关探讨回顾
  随着信息技术的发展和普及,进入20世纪80年代后,探讨者开始借助语料库来探讨文本,并通过定量略论来探索文本的特征。人们通常用语料库文体学、计量文体学等词语来描述这一新兴的探讨措施。但无论哪种说法,其根本均为基于语料库对文本进行定量略论。
  近年来,国内对文本进行定量略论的探讨主要分为两大类。分别为汉语言文学著作略论和英美文学著作略论。前者探讨内容主要集中在唐宋诗词等古代汉语言文学著作的词汇语义、诗词语言风格评价等方面。[1]其用途之一在于通过字、词、标点等出现的频度统计来略论文本的文体风格。在此基础上,还可用于通过字、词、句的出现频率来确定文学著作的创作者。如通过对《红楼梦》前80回和后40回的用词统计,确定后40回是否为曹雪芹所作。也就是说,通过文学著作的计量探讨略论文本的语言风格,可以确认未知作者的文本或作者有疑义的文本的真实创作者。国内对文学文本进行定量略论探讨的第二类为英美文学著作的量化探讨。[2]
  尽管人们认为量化探讨文学文本始于20世纪80年代,但事实上,以日本为例,早在1950年,波多野完治即有所涉及。他随机抽取了500个小说片段进行字数统计,并与报纸、杂志中的文本进行了比较。尽管这只是一个雏形,但可以说开创了日本定量略论文学文本的先河,为后来者提供了一个全新的探讨视角。
  二、定量略论日语文本的文体
  当前文本的量化略论措施主要应用于略论其文体特征。所谓文体即是文章“内容的展开方式”“作者的表现态度”和“所选取的表达方式”的结合(桦岛忠夫,1968:76)。文体考察实际上是对某一语言特征的考察,即应用语言学的措施将文本作为语言形式来进行文体略论。这种文体略论具体来说即略论、统计文章的音韵、文字和文的具体形态。例如,文章有无音韵规律,经常使用的词语类型,文的构造和功能,多应用短文还是长文,等等。
  在计算机技术发展之前的定量略论文体措施只适合于“诗歌或语篇片段的略论。对篇幅较大的小说、剧本或一个作家的全部著作困难较大。”(刘世生、朱瑞清,2017:69)就当前的探讨情况来看也确实如此。虽然现代文体探讨通过抽取文章语言并进行统计,可以明晰某一类文学著作或是某一位作家的语言特征,但到当前为止,所探讨的文学著作多为诗歌、短剧等篇幅短小、统计起来较为方便的文学类别,并且统计略论对象大多集中于英语圈作家的著作。国内这类对文体进行定量略论的探讨也大多集中在唐宋诗词等古汉语著作这类篇幅相对短小的著作上。“对具体作家的文体风格的探讨,以国外居多。”(刘世生、朱瑞清,2017:65)当前国内对日本文学著作和作家的文体探讨近况也是如此。但是随着语料库的发展,通过语料库这一平台,略论长篇的日语文本或某一作者的文体成为可能。
  但从具体的略论考察内容上来说,日语的语言特点决定了其文本与汉语及英语文本存在较大异同。在量化略论汉语及英语文本时,大多采用统计词频的方式,即统计某字或词语出现的频率,进而略论文体风格。但是在日语文本略论中,统计词频较为困难。首先,日语的表记措施多样,有汉字、平假名、片假名以及罗马字等多种方式,有的词语还有多种汉字写法,如「�浃à搿ぬ妞à搿ご�える」,因此同一词语可能会出现多种书写方式;而同样的假名也可能有不同的含义,如「�(あり)・有り(あり)」,这无疑大大增加了词频统计的工作量。其次,日语词汇中活用变化较多,同一含义的单词根据上下文的不同可能会变化成五六种不同的活用形,这同样给词频统计带来不便。
  因此,在试图应用语料库量化略论日语文本时,需要结合日语的表现特点重新确定考察对象。通过比较略论,可以从以下几个方面着手:
  1.句子长度
  这项指标考察每一句中字数或自立语数或文节的数量。由于日语中每一文节仅包含一个自立语,因此该项指标考察的自立语数量和文节数应为一致。一篇文章中,若每句句子越长(即包含的自立语数或文节数越多),则文章越难理解;相反则浅显易懂。波多野完治曾对日本的小说、报纸、杂志文章中的句子长度进行过统计,结果如下:[3]
  表1:
  类别 小说 报纸 杂志
  句子长度/字数 34.5 98 61
  也就是说在日语文章中,与报纸、杂志报道相比,小说的句子长度是最短的,平均每句句子只有34.5个字。但是与日常对话相比,其结果又将如何?桦岛忠夫曾对具体数值进行过统计,统计结果如下表所示:[4]
  表2:
  类别 日常对话 小说 日本文学大辞典 新闻报道
  句子长度/自立语数 3.4 12.1 20.2 14.6
  需要说明的是,此处对小说句子长度的统计中不包括会话文。在这项统计中可以看出小说的平均句子长度大约是日常对话的3倍。以上两组表格中,虽考察项目有所不同(前者统计的为句子字数,后者统计的是自立语数量),但所指向的内容均为句子长度。
  2.名词比率
  名词比率是指文本中名词的数量在所有独立词中所占比例。根据桦岛忠夫的统计,各类型文章中名词的平均使用率如下:
  表3:
  谈话语 社说 日本文学大辞典 俳句 新闻报道 标题
  43.2 51.1 59.6 62.7 68.3 74.0
  可以看出,在标题文本中名词的使用率最高,谈话语则最低。这表明了名词较多地使用于归纳性、说明性文本中,而在描写性文本中则使用较少。   3.MVR
  MVR为Modifier and Verb Rate的缩写,即修饰词与动词的比率。Modifier包括形容词、形容动词、副词、连体词等起修饰影响的词语,V即动词。在计算时,通常会在M和V的比值下再乘以100以方便标记。文本中,MVR的值越高,说明该文本应用了较多的描写性的修饰词语,阅读起来容易理解,不晦涩。反之则表明文本的说明性倾向越大。
  4.会话文的比率
  会话文的比率是指一部文学著作中引用的对话在全文中所占的比例。我们已知日常对话的平均句子长度约为小说平均句子长度的三分之一。文学著作中,作者常常引用对话使读者身临其境地把握人物的心理、情绪和环境氛围等。因此,文本中如果较多地引用对话的话,不仅通俗易懂,且能够让读者直观地感受到人物性格特征及场景气氛等,因而更加引人入胜。
  以上四项指标中,第一项直接联系到文本阅读时的难易度,即相关于长句来说,短句更容易理解;第二、三、四项指标直接联系到文本的描写性倾向。即名词比率越低、MVR和会话文比率越高,则文本越倾向于描写性。而相关于说明性文本,描写性倾向越高的文本阅读难度越低。因此,对该四项指标的考察除了能掌握文本(或作者)的文体特征之外,还均能从实证角度论证文本的阅读难易度。
  三、对于宫泽贤治童话著作的句子长度略论
  宫泽贤治的著作在日本广受欢迎,并且其读者群并不限于儿童。为了解这位作家的语言风格,笔者将利用原文语料库和日语解析软件对其著作进行大规模的数据提取和对比略论。
  (一)数据采集
  为使结论尽量客观而全面,在数据采集上,笔者选取了宫泽贤治各个时期所创作的18篇童话著作。其中因为1921年为宫泽贤治创作的高峰期,本文选择的该时期著作也略多一些。具体著作情况如表4所示(其中*为其生前未发表著作)。
  表4:
  著作 创作时间 著作 创作时间
  1 双子の星* 1918年 10 �酩伪标L七星 1921年
  2 蜘蛛となめくじと狸* 1918年 11 注文の多い料理店 1921年
  3 土神ときつね* 1919年 12 水仙月の四日 1922年
  4 グスコ�`ブドリ�挥� 1920年 13 やまなし 1923年
  5 �の火* 1920年 14 �旰邮螭蚊�皮 1923年
  6 どんぐりと山猫 1921年 15 猫の事�账� 1925年
  7 ヨタカの星* �s1921年 16 �y河�道の夜* 1931年
  8 月夜のでんしんばしら* 1921年 17 �Lの又三郎* 1931~1933年
  9 雪渡り 1921年 18 蛙のゴム靴* 不�
  前文已述,由于日文表记措施的多样性,为避免在计算句子长度时使用字数统计造成不尽客观的结果,笔者还将在字数统计的基础上采用解析软件统计文节数量。由于每一个文节只包含一个自立语数量,因此句子的文节数也反映了自立语数,即句子长度。通过解析软件可得出上述18篇童话著作的字数、句子数以及文节数,将这些数据进行计算之后可以得出宫泽贤治该18篇童话著作的句子长度数据,结果如图1所示(横坐标的数字为表4中各童话著作的编号)。
  图1:
  从上图可以看出,在统计的宫泽贤治的18部童话著作中,除了第1、2、18号著作,其余15部著作每句平均文字数几乎都集中在25-35字之间。其中有一半的著作都是在30字左右。而每一句的平均文节数大体也呈现这一规律。总体来说,这18篇著作的平均文节数都在5-10之间。其中第1、2、18篇著作的数据更低一些。具体来说,每一文的平均文节数为9或10的只有三部著作,其余著作大多为7个或8个文节。经计算,所有18部童话著作的每句平均字数为27.5,日语论文,平均文节数为7.7。
  (二)对比略论
  定量略论文学著作的目的在于总结作家或著作的文体特征。而特征是相对的,因此在该例中,日语毕业论文,要想总结宫泽贤治童话句子长度的特征,就必须有参照对象。桦岛忠夫通过统计得出的结论为“口语中,平均每文使用的文节数为3.2-3.6,大约为小说的三分之一。”由此,我们可知,小说中每文的平均文节数大约在9.6-10.8之间。但是,根据上文对宫泽贤治十八篇童话著作的统计,其每文的平均文节数只有7.7,仅为小说文节数的四分之三。在此基础上笔者又进行了对比探讨。在比较对象的选择上,考虑到要兼顾时代特点和著作特点,因此选择了同时代的岛崎藤村的著作进行对比略论。岛崎藤村(1872-1943)和宫泽贤治的(1896-1933)生活年代大体相近,因此避免了因年代不同而造成的著作文体异同。表2为本文所要统计的岛崎藤村的五篇著作及各著作字数、句子数和文节数的相关数据。这五篇著作均为其代表作,创作时期也各有不同,时间跨度达二十余年。其中《ふるさと》为童话。
  表5:
  著作 创作时间 字数 句子数 文节数
  19 破戒 1906年 201786 6154 65425
  20 家 1911年 266017 6931 80486
  21 新生 1919年 332091 7464 95198
  22 ふるさと 1920年 42622 1174 12990
  23 夜明け前 1929年 801100 18932 209157
  由表5数据经过计算可以得出岛崎藤村五部著作中每句平均字数和每句平均文节数。数值分布如图2所示。
  图2:
  从图2可以看出,岛崎藤村的五篇著作中,除了《破戒》以外,每句平均字数均在35-45之间。此外,五篇著作的每句平均文节数均为10-13左右。通过计算,这五篇著作的平均句长为每句38.8字和11.4文节。这一数据与宫泽贤治的有相当大的差距,图3可以直观反映出来(每组左边的柱状图为宫泽贤治著作的数据)。与岛崎藤村的著作相比,宫泽贤治著作的每句平均字数少十余字,每句平均文节少近4个。   图3:
  通过以上对数据的统计和对比,我们可以看出宫泽贤治的童话著作句子长度特别短小,介于口语和小说的长度之间(口语为3-4文节,小说约为11文节,宫泽贤治童话约为7.7)。但这一特征究竟是其个人写作特征还是作为童话的普遍特征,我们可以通过与同时代其他作家的童话著作进行比较。以下将从杂志「赤い�B」中选取四部童话著作作为参照进行对比。「赤い�B」为铃木三重吉于1918年创办的童话杂志,于1935年停刊。表6为从上述刊物中选取的著作的相关数据。
  表6:
  著作 作家 创作时间 字数 文长 文节数
  24 蜘蛛の糸 芥川��之介 1918年 2840 61 734
  25 ぽっぽのお手�� �木三重吉 1918年7月 5511 174 1583
  26 一本足の兵� �木三重吉 1919年5月 5351 172 1623
  27 ごん狐 新美南吉 1932年 4798 143 1272
  由表6可以看出,用于对比略论的四部童话著作的创作年份与宫泽贤治童话著作的创作年代相符,因此可以排除由于年代差距而导致的文风异同。比较结果可以直观表现为图4所示。两道虚线分别为宫泽贤治童话著作每句话的平均字数和文节数。显然除了芥川龙之介的数据较大以外,其他三部著作表现相当,但均高于宫泽贤治的童话著作。事实上,芥川龙之介其他非童话的著作的句子长度均较同时期小说家的数据要高;此外,「赤い�B」也曾经收到过宫泽贤治的投稿,但并未采用。因此宫泽个人的写作风格与杂志其他著作风格的异同由此可见一斑。
  图4:
  以上数据和略论都表明,无论是与一般小说相比,还是与其他作家的童话著作相比,宫泽贤治童话著作的句子长度均偏短,每句话的中心词数量偏少。这一发现从实证的角度说明宫泽贤治的著作浅显易懂。笔者认为,这也是其在日本广受欢迎的原因之一。
  四、对于宫泽贤治童话语言的描写性略论
  所谓描写性语言,即能让读者在阅读时产生种种对于样态、方式措施等的联想的语言表达。在一篇文章中,描写性语言成分越多,文章就越容易理解。通过上述对于句子长度的略论,我们获取相关数据并得出宫泽贤治童话著作浅显易懂的结论。在该部分,我们将提取宫泽贤治著作中描写性语言的数据,以对上述结论进行补充或驳斥。数据来源仍然与上文相同,抽取宫泽贤治于不同年代创作的18部著作,略论对象将包括以下几个方面:名词比率、MVR和会话文比率。
  (一)名词比率
  在说明性的文本中,由于作者需要论述或推测机制、理由,又或者要判断某事物的价值,因此我们可以认为在说明性的文章中名词的比率较高。宫泽贤治的18部著作和岛崎藤村的5部著作中的名词比率如图5所示。
  图5:
  图5中垂直虚线以左为宫泽贤治18部童话著作的相关数据。名词使用率最低的为18号著作(32.68%),最高的为15号著作(44.06%),平均数值为39%。右边岛崎藤村5部著作的数据,我们可以看出数值最低的20号著作(46.71%)都高于贤治的最高值,而最高值的23号著作更是高达54.49%,藤村著作的平均数值为50.2%。图5中水平虚线为日本小说中名词比率的平均数值,可以看出该数据远远高于贤治的童话著作,整体上与岛崎藤村的著作较为接近。通过图6也可以看出,宫泽贤治童话著作的名词比率也低于同时期其他童话著作。
  图6:
  (二)MVR
  MVR(Modifier and Verb Rate)为修饰词与动词的比率,是判断文章描写性特征的又一指标。修饰词包括形容词、形容动词、副词和连体词。因此,动词较多的文本MVR值偏小,相反,修饰词较多的文本MVR就偏大。也就是,越是详细描述表现对象样态的文本,MVR也就越大,这样的文本自然属于描写性文本。在统计并计算宫泽贤治的18部著作和岛崎藤村的5部著作的MVR值之后,得出图7。
  图7:
  横轴为名词比率,纵轴为MVR值,虚线左右两边分别为贤治和藤村著作的数据。可以看出左边宫泽贤治著作中MVR值在100以上的有6部,占全部著作的1/3,MVR值在70以下的著作仅两部,其他著作大部分在80以上,所有18部著作的MVR平均值为89.32。而岛崎藤村的5部著作中,MVR值最高的也仅仅为82.84,低于贤治著作的平均值。图8为与「赤い�B」中著作的对比图。直线连接的四点为「赤い�B」中四部童话著作的数据分布,MVR值最高的为24号著作(77.56),与贤治著作的平均值还存在较大差距。可以看出这四部著作在图中位置都位于虚线以下,虚线以上均为贤治的著作。
  图8:
  (三)会话文比率
  判断文章的描写性倾向还可以通过会话文比率这一指标。即文本中对话字数与文本总字数的比率。在文本中,通过引用对话,能够创造出身临其境的感受,直观地向读者传达人物的感情、身份、环境特征等。
  图9:
  图9为本文考察的27部著作的会话文比率。其中前18部宫泽贤治著作的数值明显高于其他9部,其平均数值为34.65%,几乎全文的三分之一以上均为直接引用的会话文。相比之下,岛崎藤村的著作数值最低,除22号童话著作以外,其他四部均低于4%。而有3部「赤い�B」中童话以及藤村的童话(22号)的会话文比率几乎都在15%左右。此外,芥川龙之介的23号著作,虽然为童话,但数值却仅为4.19%,再比较此前对比句子长度时的数值,23号著作远高于其他「赤い�B」中的童话,不得不说这是芥川龙之介的个人写作特点。
  图10:
  文本中的名词比率、MVR和会话文比率均表现了作者行文时的描写性倾向。如图10所示,通过这三项指标的对比,我们可以看出宫泽贤治的著作具有较强的描写性特征。其著作的MVR和会话文比率远高于同时代其他著作(包括同时代童话著作),而名词比率却最低。再结合前文对于句子长度的相关数据,每一项指标的数值均说明宫泽贤治童话著作的通俗易懂,也解释了其作为作家在日本人气居高不下、其著作在日本广为流传的原因。   五、结语
  随着现代计算机技术和语料库的不断完善,已有越来越多的探讨者开始借助语料库,使用定量略论的措施略论文本,尤其是文学文本。但尽管如此,探讨大多局限于汉语言文学和英美文学著作,鲜见对日语文本,尤其是长篇文本进行量化探讨。究其原因,除了日语长篇文本语料库不够充分之外,主要是先前计算机技术的局限性和日语自身的语言特点制约了日语语言的量化略论,导致大规模的词频统计无法完成。但是,计算机技术发展日新月异,当前已有相关软件可以略论日语文本的文节特征,在此基础上,在对日语文本进行定量略论时,可以跳出词频统计的束缚,通过句子长度、名词比率、MVR和会话文比率,来探索日语(文学)文本的文体特征。本文利用语料库和日语解析软件,尝试略论并对比了宫泽贤治童话著作的句子长度特点和描写性倾向。笔者认为,结合语料库和日语解析软件,可以深入探索文本和作者的文体风格。
  (基金项目:本文是2017年江苏省教学厅项目“小松左京著作的日本艺术意义”[项目编号:2017SJB804]、2017年江苏省教学厅项目“中日传统‘家’艺术与百姓幸福观问题探讨”[项目批准号:2017SJB838]、江苏学院2017年高等教学教改探讨课题“语料库技术辅助高校日语系词汇搭配教育的探讨与实践”[课题编号:2017JGYB024]的阶段性探讨成果。)
  注释:
  [1]如浅谈古代文学中计量措施的运用、仓央嘉措情歌的用词风格统计探讨。
  [2]如任艳,陈建生,丁峻:《英国哥特式小说中的词丛――基于语料库的文学文体学探讨》,解放军外国语大学学报,2017年,第9期。
  [3]数据来自波多野完治:《�F代文章心理学》,新潮社,1950年版,第153页。
  [4]数据来自��u忠夫:《日本�Zのスタイルブック》,大修�^��店,1979年版,第214页。
  参考文献:
  [1]��u忠夫.表�Fの解剖――�A文章工学[M].三省堂,昭和43年:27-94.
  [2]波多野完治.�F代文章心理学[M].新潮社,1950:153-164.
  [3]��u忠夫.日本�Zのスタイルブック [M].大修�^��店,1979:211-216.
  [4]�虮具M吉.国文法探讨第二�裕�虮具M吉博士作品集)[M].岩波��店,1948:5-12.
  [5]前川喜久雄.コ�`パスとは何か(国文学解�と�a�p 特集=日本�Z探讨とコ�`パス)[J].至文堂,2017,(1).
  [6]�m�u�_夫.�碚h日本�Z――グラフで�る言�~の姿[M].角川��店,1982:373-392.
  [7]原子朗.真の文体�的批�uへの期待」[J].『日本�Z学』特集,1997,(9).
  [8]刘世生,朱瑞青.文体学概论[M].北京:北京学院出版社,2017:61-69.
  [9]李文中.语料库语言学的探讨视野[J].解放军外国语大学学报,2017,(3):37-40.
  [10]李晋,郎建国.语料库语言学视野中的外国文学探讨[J].外国语,2017,(2):82-89.
  [11]毛文伟.日语语料库建设的近况综述[J].日语语言探讨,2017,(6):42-47.
  [12]唐磊.浅谈古代文学中计量措施的运用[J].中国社会科大学探讨生院学报,2017,(2):126-132.
  [13]陈晨,陈小莹等.仓央嘉措情歌的用词风格统计探讨[J].西北民族学院学报(自然科学版),2017,(3):46-50.
  [14]任艳,陈建生,丁峻.英国哥特式小说中的词丛――基于语料库的文学文体学探讨[J].解放军外国语大学学报,2017,(9):16-20.
  (曹雅洁 江苏学院文大学 212017)

免费论文题目: