【摘要】:新闻作为一种信息传播的媒介正在作用着人们的生活、工作等各个方面。现如今面对如此海量的新闻信息获得人们感兴趣的新闻话题是一个亟待解决的问题。话题识别技术就可以针对刚才讲到的问题给予回答措施。它能够实现话题的识别,对客户感兴趣的话题进行组织并呈现其发展的态势,满足人们对新闻信息的需求。在国际大环境下,各国之间的交流合作不断加大,中越两国又是唇齿相依、依山旁水的地理关系,所以了解越南国内的情况是十分必要。本文针对越南语的特点提出了基于新闻报道的话题识别模型。通过该模型可以满足个性化服务及话题识别。本文在探讨并略论现有探讨工作的基础上,开展了基于后缀树聚类算法的越南语新闻话题识别措施探讨,主要探讨内容为以下几方面:(1)在实验室的越南语信息处理平台上完成对新闻文本的预处理,从词频、词性、命名实体、标题、位置进行特征选择,结合词频、反文档频率调整权重,采用前n条策略和阈值限制提取新闻文本特征。(2)对从新闻网站上爬取下来的越南语新闻语料经过实验室越南语信息处理平台的预处理,得到较高质量的语料,使用空间向量模型和后缀树模型表示语料,再对语料构建后缀树,对公共短语使用第三章中提取特征的措施来选择基类作为聚类的基础,改进合并基类时的相似度计算公式,使得聚类效果更好,最后使用聚类标签表示出聚类结果。并将改进的后缀树聚类算法STCV与传统的后缀树聚类算法STC进行实验对比验证。(3)结合以上的探讨内容设计了原型系统,通过该系统可以实现新闻话题的识别,使得人们更好的利用新闻信息。
【关键词】:越南语 特征选择 话题识别 后缀树聚类
摘要5-6 Abstract6-11 第1章 绪论11-17 1.1 探讨背景及意义11-12 1.2 国内外探讨近况12-14 1.3 论文的主要探讨内容14-15 1.4 论文的结构安排15-17 第2章 话题识别相关技术17-25 2.1 引言17-18 2.2 话题识别模型18-20 2.2.1 向量空间模型VSM18-19 2.2.2 布尔模型BM19 2.2.3 语言模型SLM19 2.2.4 概率模型PM19-20 2.3 经典的聚类算法20-23 2.3.1 Single-Pass算法20-21 2.3.2 K-Means算法21 2.3.3 后缀树聚类算法21-23 2.4 本章小结23-25 第3章 越南语新闻话题特征选择25-41 3.1 引言25 3.2 越南语词法特点25-26 3.3 获取越南语新闻语料26-30 3.3.1 语料来源26 3.3.2 网页信息爬取26-28 3.3.3 越南语语料存储28-30 3.4 文本预处理30-33 3.4.1 文本略论及去停用词30-31 3.4.2 越南语分词与词性标注31-32 3.4.3 命名实体识别32-33 3.5 新闻报道的表示33-35 3.5.1 向量空间模型33-34 3.5.2 后缀树文本模型34-35 3.5.3 文本相似度计算35 3.5.4 新闻类簇相似度计算35 3.6 新闻特征选择35-39 3.6.1 特征选择36-37 3.6.2 新闻特征权重37-39 3.7 本章小结39-41 第4章 后缀树聚类算法的越南语新闻话题识别41-51 4.1 引言41 4.2 越南语新闻话题识别流程41-42 4.3 改进的越南语新闻后缀树聚类过程42-47 4.3.1 构造广义后缀树GST43-44 4.3.2 短语基类选择44-45 4.3.3 合并基类45-46 4.3.4 聚类标签标识46-47 4.4 两种后缀树聚类算法性能比较47-49 4.5 本章小结49-51 第5章 越南语新闻话题识别系统及实验略论51-55 5.1 引言51 5.2 实验环境51 5.3 原型系统界面51-52 5.4 实验结果与略论52-54 5.4.1 实验语料52-53 5.4.2 实验结果与略论53-54 5.5 本章小节54-55 第6章 总结与展望55-57 6.1 论文总结55 6.2 下一步工作55-57 致谢57-59 参考文献59-65 附录A 攻读学位期间的论文及软件作品目录65-67 附录B 攻读学位期间参与的科研项目67-69 附录C 攻读学位期间获奖情况69 ,越语论文题目,越语论文题目 |