命名实体识别的任务是识别待处理文本中的人 名、地名、机构名、数字、时间、货币和百分号这7种命名实体。其中,人名、地名、组织机构名最难识别,同时也是最重要的3类实体;虽然数字、时间、货币和百分号这些实体相对简单,但是对上 层略论都有重要意义。命名实体识别属于自然语言处理的基础探讨领域,是组块略论[1]、数据挖掘、信息抽取[2]、信息检索[3]、句法略论[4]、语义略论[5]、自动文摘[6]、问答系统[7]和机器翻译[8]等自然语言处理过程中的重要基础,同时也是重要的预处理过程。 越南语命名实体识别是很困难的一项任务。原因包括:1)实体复杂。越南国家受多文化的作用,在实体命名方面显示出命名实体的多样性和复杂性;越南地名命名广泛,主要分为基本地名和复合地名;越南语实体拼写多样化,比如:东京(??ng Kinh,T?ki?,T?-ky-?,T?-ki-?),胡志明(tphcm,h?chíminh,hochimin.)等;地名中同时含有数字出现,比如第1坊h,tp hcm.(“ph??ng 1”),3号国道(“qu?c l?s?3”),同时越南语和其他语言一样......(论文页数是:10页) ,越语毕业论文,越语论文范文 |