俄语论文:《俄语形态信息的自动略论》[俄语论文]

资料分类免费俄语论文 责任编辑:阿米更新时间:2017-05-18
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

俄语论文:《俄语形态信息的自动略论》

摘 要: 所谓俄语形态信息(морфологическиеинформации)的自动处理(автоматическаяобработка)是指以传统形态学的有关理论和探讨成果为基础,利用计算机技术手段,自动完成词或词形形态信息的表示、获取、略论、识别、俄语论文合成和转换。概括地说,就是要达到两大目标:1)实现文本中词形的自动还原(лемматизация)并自动标注该词形承载的所有语法信息;2)自动列出可变化词(изменяемоеслово)的词形聚合体(пардигмасловоформ)或自动生成变化词的某一特定词形。本文只限于探讨上述第一个处理目标--—俄语形态信息的自动略论。围绕以下四个问题展开探讨:1)俄语形态知识的模式化;2)俄语形态知识的形式化表达;3)俄语形态信息自动略论算法;4)俄语形态自动略论系统个案举隅。
关键词: 俄语; 形态信息; 自动略论; 模式化; 算法
自然语言是人类独有的交际工具,和人类独有的思维能力密不可分。所以语言又是思维的工具。自然语言自动化处理的实现就是要建造模拟人类语言能力、模拟人类从事言语活动时思维过程的装置,通过这些装置实现言语著作的生成、言语著作的理解或言语著作的转换。
人之所以具备语言能力是因为其具备两种系统:一是静态的语言知识和语言规则系统,根据认知科学的观点,这个系统以网络的形式存储在人的大脑中;二是在言语场景、表达或理解等交际因素的激发下快速激活该系统中相关节点,通过已有知识经过一系列认知操作推知未知信息,从而达到预期的目标。这个过程虽然是瞬间即逝的,但是完全可以分解为有序的步骤。由这些步骤组成的过程体现为另一种动态操作系统。
自然语言处理,不论处理哪一层面的语言信息也要从两个方面入手。一是把处理对象的有关知识和规则进行模式化略论和形式化表达,储存在计算机中,作为处理过程中的信息源系统。当然,这个系统一定是概括的,而不是具体的;是精确的,而不是模糊的;是元语言形式化表达的,而不是自然语言表达的。二是把由处理对象到处理目标的操作过程分解为单元性步骤,体现为由程序指令构成的算法。当然这种算法与信息源系统是相互制约的,而不是彼此孤立的;程序指令之间是相互依存的,而不是互不作用的;整个算法可以是多方案的,而不是唯一不变的。
所谓俄语形态信息的自动化处理是指以传统形态学的有关理论和探讨成果为基础,利用计算机技术手段,自动完成词或词形形态信息的表示、获取、略论、识别、合成和转换。概括地说,就是要达到两大目标:1)实现文本中的词形的自动还原并自动标注该词形承载的所有语法信息,在算法(алгоритм)上这是一个略论过程(аналитзическийпроцесс),与言语理解过程相应。例如:对词组читаемуюкнигу自动处理后可获得如下略论结果:читаемую читаемый/Прич.,страда.,нас.вр.,полн.,Вин.п.,ед.ч.,жен.р./книгу книга/Сущ.,Вин.п.,ед.ч.,жен.р./
2)自动列出可变化词的词形聚合体或自动生成变化词的某一特定词形。
在算法上这是一个综合过程(синтетическийпроцесс),与言语生成过程相应。如командовать经处理后可获得如下结果:
Наст.вр.,ед. ,1л. ,командую;Наст.вр.,ед.
, 2л.,командуешь;Наст.вр.ед., 3л.,
командует;Наст.вр.мн., 1л.,командуем;
Наст.вр.мн., 2л.,командуете;Наст.вр.мн.,
3л.,командуют;прош.вр.ед.,м.р.,
командовал;прош.вр.ед.,ж.р.,командовала;
прош.вр.ед.,ср.р.,командовало;прош.вр.
мн.,чис. ,командовали;повел.нак. ,ед.,2л.,
командуй.
1 俄语形态信息的模式化
任何科学探讨都脱离不开两种基本措施:直接观察法和模式化措施。有些对象物由于太大(如天体的内部构造)或者太小(如原子层面的物质结构),由于具有不可分解性和不存在直接的外显性(прямаяневыражанность)(如语言现象),探讨者不得不建造原型(аргинал)的相似物--—模型(модель)。模型是模拟探讨对象某些属性和功能的人造认知装置(исскуственносозданноемысленноеустройство),不同的的模型模拟不同的本体属性。所谓模式化的措施就是利用模型进行探讨的措施。
模式化的本质是抽象概括,舍弃具体的非本质的特征,保留本质的共性的特征,模式化的结果是构拟出层次分明的“类”体系。俄语形态信息的模式化就是要把与形态略论和词形综合的有关知识分类,建立静态知识系统存储在计算机中,为形态信息的自动化处理提供全面的语言学保障。在这一节里,我们的探讨思路是首先考察一下形态信息处理与哪些形态学知识和规则相关,即要对那些内容进行模式化略论;然后,介绍现存一些系统常用的模式化方案。
1.1 词类属性 
传统语法根据概括意义、形态特征和句法功能3个方面的不同,将俄语词汇分为10大类:名词、形容词、副词、代词、数词、动词、前置词、连接词、语气词、感叹词。前6类词可独立承担句子成分,所以构成实词类;前置词、连接词、语气词主要用来表示词与词、句子和句子之间的关系或赋予词或句子以各种语气,不能独自作句子成分,所以构成虚词类;感叹词是用来表达情感或意愿的词,既非实词,也不是虚词,独自构成一种特殊词类。另外,有的学者把“谓语副词”独立出来,作为一种特殊词类。
各个词类有的(主要是实词)具有形态变化,有的(虚词和感叹词)无形态变化。关于有形态变化的词来说,不同词类有不同的语法形式、语法范畴和语法意义。既然词类与形态特征、句法功能以及语法形式和语法范畴相关,所以,词类属性是模式化的主要内容,在过程上应该是模式化的首要一步。
在这方面,实用化模式与传统词类划分有所不同。为了加以区别,常使用语法类别这一术语(Зализняк)。一般把俄语词汇分成以下几类:不变化词、名词(包括代名词)、形容词、动词和标点符号。
1.2 词汇—语法类别 
词汇—语法类别是词类内部的次层级抽象类,是词类次范畴化的结果。它们决定自身是否具有某个语法范畴,如何变成相应的语法形式。例如关系形容词没有比较级和最高级范畴,同样是以辅音结尾的名词,活物类( /одушевленные)和非活物类(неодушевленные)构成第四格形式时遵循不同变化规则。在这一方面,主要在名词内部区分活物性和非活物性,在动词内部区分了及物性和非及物性。
1.3 非词变性语法范畴 
这主要指名词的“性”范畴和动词的“体”范畴。(例略)
1.4 词变类别 
传统语法把名词和形容词的变格分成硬变化和软变化,把动词的变位分成第一变位法和第二变位法,这是远远不够的。实用化系统需要定性描写,需要精确划分。然而词变规则非常复杂,至少牵动以下因素:与语法意义对应的词尾形式;词干是否发生语音交替,如何交替;变化时是否发生重音移动,如何移动等。基于词变类别的复杂性和多变性,一般分三级进行模式化,第一级只根据词尾形式的不同归类;第二级依据词干变化的不同划分次类;第三级按照重音变化情况划分次类。限于篇幅和词变类别模式化的复杂型,在此仅以名词为例,概略地展示模式化的基本措施,对于形态信息的模式化问题在“俄语形态信息的处理:形态信息的模式化”(待)一文有详尽的阐释。
名词在第一级分为0-8共9类:0类指不发生形态变化的词,所有词形在形式上是一样的,如:пальто;1类和2类分别指常规性硬变化和软变化的词,以“/”为界,左边为1类变化词尾,右边为3类变化词尾。
3—7类以1类或2类变化规则为基础,只在个别地方作些改动。如3类指词干以-г, -к,-х结尾的词,遵循1类变化规则,只把,俄语专业论文俄语论文

免费论文题目: