摘 要:要实现自然语言处理的各种目标,必须充分考虑语言的个性特征。对俄语相关论文中的几个基本构句块--—动词性构句块、名词性构句块、形动词短语、副动词短语进行模式化略论,并且就如何对其进行自动识别编制具体的程序和算法,这对俄语句法信息的自动化处理具有重要的意义。 关键词:俄语;句法略论;构句块;自动化处理 当今的自动句法略论(автоматическийсинтаксическийанализ)呈现出两种明显的趋势:一是引入统计法,把基于规则的措施和统计的措施结合起来;二是把句法和语义结合起来,实现句法—语义一体化略论。从俄罗斯有关计算语言学与机器翻译的文献来看,虽然两种趋势在个别新的俄语语言处理器(лингвистическийпроцессор)中都有所体现,但是,俄语句法略论器(синтаксическийанализатор)的设计主要还是采用基于规则的措施:在文法方面主要源于句子直接成分法、依存语法理论及传统语法的“词类—句子成分”理论;在算法方面主要基于上下文无关文法(контекстно-свободнаяграмматика)等形式文法思想。如,较有作用的ЭТАП机器翻译系列软件和ДИАЛИНГ等系统中的句法略论模块就是如此。当然,每个系统都有许多独到的处理措施和策略。我们认为,自然语言处理要充分考虑语言的个性特征。应该肯定,基于规则的措施对俄语句法略论来说是有效的,因为俄语是典型的屈折语,形态手段异常丰富,句法信息可通过词形特征计算出来。语言具有层级性,句法结构就是一个多层级结构,有直接构筑单位、次层级单位、三级单位等。至于有哪些这样的单位,他们是怎样构成句子的,这与语法理论相关。乔姆斯基转换生成语法把名词短语和动词短语作为直接单位: S→NP/VP;佐罗多娃(Г.А.Золотова)在交际句法中把句法素(синтаксема)视为句子的直接成分;俄语传统语法中的主语、谓语、补语三个主要成分实际上也正是句子的直接构筑单位。不论是上述句子的直接单位,还是其他单位都是由有限的构句块(синтаксическийблок/группа/сегмент)充任,其中基本的有动词性构句块(глагольныйблок)、名词性构句块(существительныйблок)、形动词短语(блокпричастногооборота)和副动词短语(блокдеепричастногооборота),本文对这四种基本构句块进行模式化略论,并就如何对其自动识别编制了具体的程序和算法,这对实现俄语句法信息的自动化处理具有重要的意义。 1.构句块识别在语言自动略论中的地位 在计算语言学中,自然语言处理被看做一个过程,该过程的起点或基础是作为信息源的各层面的静态语言知识,是由用于模式化略论和形式化表达的语言范畴知识和语言规则构成的信息库,此外,还应该包括待处理的自然语言(文本或有声言语)。终点则是该过程所实现的处理目标,也体现为静态的信息集,而过程本身体现为程序语句集合的动态操作,他们之间的关系可以表示如下:
2.基本构句块的模式化略论 俄语中的四类基本构句块在构成特点、主导词、形态特征、句法功能等方面各不相同。 3.构句块识别的算法和程序 |