《蒙古语语法信息词典》动词语法属性字段格式设置[阿拉伯语论文]

资料分类免费阿拉伯语论文 责任编辑:艾米尔更新时间:2017-06-16
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

《蒙古语语法信息词典》动词语法属性字段设置

摘 要:研制《蒙古语语法信息词典》是蒙古文信息处理的支柱工程。在词典的框架已形成的情况下制定更具体的语法属性字段,并将其系统实现,已迫在眉睫。在自动略论、自动生成、机器翻译、自动标注、自动校对等工作中语法信息词典所起的影响都是通过语法属性字段及其取值所含信息得以实现。动词在蒙古语句子构成中常常是一个句子的核心。在借鉴传统蒙古语语法探讨成果的基础上,应用计算语言学理论与措施,设计出易于计算机处理的各种语法属性字段及其取值。


关键词:《蒙古语语法信息词典》;动词;语法属性字段


erb Grammatical Attribute Field in“Mongolian Grammar Information Dictionary”
 Abstract:Compiling a“Mongolian grammar informaton dictionary”is a basic and pillar engineering. The urgenttask that the dictionary have brought at present is to design more specific grammar attribute field and then carry it outsystematically. The grammatical attribute field is urgently in need for the work of Mongolian information processing nomatter it is automatic segmentation, automatic generation, automatic tagging or machine translation. The verbs play animportant part of rule in Mongolian and it is usually key words in Mongolian sentences. This article is based on the re-search achievement of traditional Mongolian grammar and utilizes the linguistic theory and method rationally to design thevarious grammatical attribute field which is easy for machine processing.
Key words:dictionary; verb; grammatical attribute field
研制《蒙古语语法信息词典》是蒙古文信息处理的基础支柱工程。在词典的框架已形成的情况下制定更具体的语法属性字段,并将其系统实现,已迫在眉睫。《蒙古语语法信息词典》用Foxpro系统编制,以数据库形式提供,把每一个词的语音、正字法、词类、词法范畴、句法功能的各种信息作为若干个属性字段附于每个词语之下。词典的框架由不同层次构成。第一层是包括该词典所有词条的总库、总库中对每个词语设置以语音、正字法、词类信息为主的属性字段。第二层是各类词的分库。如名词库、动词库、形容词库等。在这一层中主要设置各个词类的词语在词法、句法等方面信息的各种属性字段。在自动略论、自动生成、机器翻译、自动标注、自动校对等工作中语法信息词典所起的影响都是通过语法属性字段及其取值所含信息得以实现。选择动词的原因是动词在蒙古语句子构成中充当非常重要的角色,它常常是一个句子的核心。如果一个句子要表示时间或动作、行为的状态、过程,则需要动词的各种语法变化来实现,即使是以名词类为中心的句子,大部分情况下也要通过“助动词”及其变化来表示这些语法意义。在机器翻译里这一点也是尤为显著。把汉语句子译成蒙古语句子时,最难掌握的是动词。因此通过转换规则生成出来的句子不通顺的主要原因还是在动词处理的质量上。
一、探讨措施、目的及其取材范围传统蒙古语语法探讨成果是我们丰厚的理论基础。在借鉴此成果的基础上,笔者主要应用语料库语言学措施和推断统计措施,设计出易于计算机处理的各种语法属性字段及其取值。从而避免了传统语法探讨当中的一些主观性和片面性,保证了信息的精确度。观察动词的特点得知,有一些特点是贯穿于全部动词的。如动词加副动词、形动词各种词缀构成副动词、形动词形式。而有一些特点表现在同类词的区别性上。如有些动词是及物的,可带直接宾语,而有些动词是不及物的,不能带直接宾语;有些动词受副词修饰,有些动词不受副词修饰。这些语言现象需要区别解决吗?如果需要怎样区别解决?这样解决的意义何在?根据规范性准则和经济性准则,关于那些比较规范化、可寻求规律,并且多数动词都具备的特点,另建一个规则库,从中获取所需信息。这样避免在一个词上不断地重复一类特点,省时、省空间,从而加快计算的速度,提高智能化程度;关于那些尚未规范、没有规律可循的同类词区别性特点,进行逐词注明,使信息更多、更细。信息越多、越细,计算机对该语言自动略论的准确率就越高。我们把前者称为动态属性,后者称为静态属性,静态属性由语法属性字段来处理,动态属性由语法属性字段和生成规则结合的措施来处理。如上所述,副动词变化是大多数动词共有的特点,而少数动词没有形动词变化。例如:动词词干“HABVRJI”有形动词的“HABVRJI/GSAN,HABVRJI/HV,HABVRJI/DAG,HABVRJI/G-A,HABVRJI/MAR”等变化,没有“HABVRJI/GCI,HABVRJI/HVYICA,HABVRJI/GVSITAI”等变化。因此关于一个词有无具体一种变化,我们用语法属性字段来处理。提到生成规则的原因是,该词如果有形动词变化,通过生成规则才能得以实现。语法属性字段和生成规则是互补的,两者有机结合后实际应用中起的影响较为明显。我们选用的语言材料为:
1.动词库列表。此列表指的是《蒙古语语法信息典》中的动词库动词列表。所收录的9690个动词均来自由内蒙古大学蒙古语探讨所编制的《蒙汉词典》。
2.数据库。利用内蒙古大学蒙古语探讨所建立的100万词级现代蒙古语文数据库进行统计。通过与其对应的程序进行词、句查找、略论工作。3.频率词典。利用《现代蒙古语词频词典》进行推断统计工作。从中选择了《运用范围最广的七千词列表》中列出的1800多动词。这些动词均被收录在动词库里。
二、动词语法属性字段1.词语法属性值的类型在动词库中,表示词语语法属性的字段的值有数值型、字符型和逻辑型三种。数值型属性值为一位数,因此这类字段的长度为“1”。如:及物动词填“1”、不及物动词填“2”;积极动词填“1”、消极动词填“2”。字符型属性值有多种可能,应制定相应的标记,其长度也不固定。如:“是否派生动词”这一字段的值为字符型,长度为“3”,即动词“IDESI/LE”由名词派生,应填“VeN”;“动词子类”这一字段的值也是字符型的,长度为“2”,即动词“IDE”是一般动词,应填“Vg”。逻辑型属性值为“Y(YES)”“N(NO)”两种,长度为“1”。如:“有无体的变化”填“Y”或“N”。2.确定动词语法属性字段及其值时所用的标记(1)制定标记的依据确定语法属性字段以后制定一套标记也很重要。因为语法信息词典需要用一种规范的、简单明了的标记来注明每一个属性的特点并且在各个运用系统中以此作为基准进行略论和生成。在制定标记时尽可能采用了国际上通用的标记。蒙语中若有与英语相同或近似的属性,我们直接接用英语的标记。如:“动词子类”,国际上一般把动词标记为“V”,把子类标记为“SUBC(SUB CATE-GORY)”,我们采纳这些标记,制定了“VSUBC”。但有些特点英语、汉语没有,蒙古语中独有的,在这种情况下,我们尽可能依据该特点在蒙古语中的习惯名称或与之相关的词缀,制定了相应的标记。如:“HEB”,表示态,采用的是蒙古语的名称。再如:“SHI”,表示短暂体,“SHI”是蒙古语短暂体的词缀。(2)制定的标记制定的标记有17项,73个,因篇幅所限只列出3项。1)动词子类字段标记:VSUBC值标记:Vg(一般动词),V,阿拉伯语专业论文阿拉伯语论文网站

免费论文题目: