【摘要】:当前计算技术特别是因特网技术发展迅猛,信息技术正深刻地作用着人们的生活。每天所发生的新闻事件所形成的文本数据海洋,亟需为用户提供高效的文本信息处理服务。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容,而文本关键词提取和词汇链构建在上述方面有着广泛的运用,它不仅是进行这些工作不可缺少的基础和前提,也是互联网上信息建库的一项重要工作。文本关键词的自动提取和词汇链构建是信息检索和摘要生成的基础,在Web页检索、文档聚类、文档摘要提取、文本挖掘等方面都有广泛的运用。首先,简要介绍了自然语言处理、文本信息预处理和特征项等相关知识,略论和比较了常用的关键词提取算法,讨论了用于英文关键词提取的GenEx系统、朴素贝叶斯提取算法以及处理汉语文本的PAT TREE.最大熵模型等相关工作,并进行了归类。然后,结合越南语语言特征,基于三个文本特征项,利用考虑候选词权重计算的文本关键词提取算法TFLD (Term Frequency, LocationDistance algorithm),该算法基于词频、区域位置以及分词距离次序三种特征项属性,实现越南语新闻事件关键词的抽取。同时,词汇链表现为词语间语义关系所引起的连贯性,它提供了对于新闻结构和主题的线索信息。结合网络语义知识库HowNet、WordNet与Wikipedia资源,使用语义相关度进行歧义消除并最终构成表达新闻事件线索信息的词汇链。最后,利用上述所做的各项工作,实现越语新闻文本事件关键词的抽取和词汇链构建的原型系统。
【关键词】:自然语言处理 关键词抽取 语义知识库 歧义消除 词汇链构建
摘要7-8 ABSTRACT8-12 第一章 绪论12-18 1.1 探讨背景与意义12-13 1.2 国内外探讨近况13-15 1.3 本文探讨内容15-16 1.4 论文组织16-18 第二章 相关工作18-36 2.1 引言18 2.2 自然语言处理18-19 2.3 语言学背景知识19-20 2.4 常用关键词提取算法20-22 2.5 关键词提取技术的分类22-25 2.6 词汇链25-29 2.7 网络语义知识库29-32 2.8 词语相似度计算32-33 2.9 词语相关度计算33-34 2.10 本章小结34-36 第三章 越语新闻事件文本关键词抽取措施36-48 3.1 引言36 3.2 越南语特点36-37 3.3 关键词37-38 3.4 越南语文本关键词自动提取算法框架38-46 3.5 本章小结46-48 第四章 新闻文本词汇消歧及词汇链构建48-56 4.1 引言48 4.2 搜索引擎48 4.3 利用HOWNET的链接信息计算词汇间的语义相关性48-50 4.4 利用WORDNET的链接信息计算词汇间的语义相关性50-51 4.5 利用WIKIPEDIA的链接信息计算词汇间的语义相关性51-52 4.6 词汇链构造算法52-55 4.7 本章小结55-56 第五章 越语新闻文本词汇链构建原型系统和实验略论56-66 5.1 引言56 5.2 实验环境56 5.3 系统架构56-57 5.4 系统实现与设计57-59 5.5 实验结果及系统评价59-65 5.6 本章小结65-66 第六章 总结与展望66-68 6.1 论文总结66-67 6.2 下一步工作67-68 致谢68-70 参考文献70-74 附录A 攻读学位期间论文74-76 附录B 攻读学位期间的软件作品权76 ,越语论文,越语毕业论文 |