【摘要】:
机器的识别本领无法与人的认知能力相比,因此手写体的识别特别是离线的手写体识别关于模式识别等学科和理论来说,仍有较强的探讨价值和意义。同时,手写体识别的探讨,关于进一步提高低质量,变形大,复杂环境干扰条件下的文字识别的准确率;解决视频图像的文字检测和识别;文字的字体、签字和字迹的鉴别;手写阿拉伯文档等的识别以及各种图像识别技术和运用问题等,甚至关于相对更成熟的联机手写识别技术来说,都具有重要的借鉴和启发影响。
由于阿拉伯手写文档具有它独有的特性,识别起来不能完全照搬现有的文字识别措施,它有着自身的特点和难点,导致现在越来越多的探讨机构投入到离线手写体阿拉伯文字识别这项探讨中来。国内外科技工作者己对该领域从不同的角度进行了广泛的探讨,并且取得了许多阶段性的探讨成果,但由于以下的原因,到目前为止,离线阿拉伯文字识别还没有商用的产品问世:
1)风格:阿拉伯文本,包括手写体和印刷体实际上都是连接的。
2)文本流:和拉丁语文本以及其它的语言不同,例如汉语,日语或者韩语,阿拉伯手稿是从右往左而不是从左往右的书写顺序,字母连在一起通常形成一条基线,但关于手写体来讲,基线只是一个想象的概念,实际书写中可能并不存在,这增加了识别的难度。
3)字符的形态:阿拉伯语字母的形态取决于它在词中出现的位置。同一个字母在词首和词尾有着截然不同的形态,加之用点代表元音,这样字母表就达到了160个字符。还有一个问题是横笔延长经常出现在相连的字母中,这也导致了字母的形态的截然不同。
4)词的形态:在阿拉伯语中,即使是相同的词,不同的书写者有着不同的书写风格,从而导致不同的词的形态。
5)重叠:由于书写风格的原因,一个词中的字母经常重叠在一起,有时候有些人还将这些字母次序颠倒地写,这给分割技术带来了很大的困难。
现有的离线阿拉伯文字识别系统的识别率及对测试数据集的有选择性等都有待改善,其效果与实际需要还有很大的距离。
本文对离线阿拉伯文字识别措施从文本图像的采集、预处理、特征抽取、分类这样一个完整的文本图像的识别措施作了探讨,评估了现有的相关算法,改进了有关的增强算法。具体完成的主要工作如下:
①在阿拉伯手写体文本图像识别的预处理过程中使用两步线性回归法来进行基线检测。在对离线阿拉伯手写体文本识别的探讨中,基线歪斜不同程度地出现在大多数自由书写的阿拉伯手写体文本中,我们提出的基线检测算法是基于两步线性回归法,首先找出该词在轮廓线上的局部最小点,然后用线性回归法在最小点上计算基线的近似值,再找出接近第一个近似值的那些点,最后用接近第一个近似值的那些点,使用第二次回归法修正这条线。另外,在手写体识别的探讨中,文本的预处理有分割和不分割两种措施,而我们针对阿拉伯文本字符相连无法实现完整分割的特点,采取不分割的措施。
②特征抽取方面。我们人能够通过大脑很简单地认识文字,是因为在人的大脑中已经保存了文字的特征,像文字的结构、笔划等。要想让计算机去认识文字,首先也要存储类似的信息,通常的做法是根据文字的笔划、特征点、投影信息、点的区域分布等进行略论,常用的特征抽取措施有结构略论措施和统计略论措施。在这篇论文中,结合阿拉伯手写体的特点,我们采用常见的GSC特征,结合主成分略论PCA来压缩特征的维数,以此描述阿拉伯手写体文本图像。
③分类器的设计。目前的探讨中一般是选择BP网络识别措施、SVM识别措施以及隐马尔可夫模型等,因为阿拉伯文本中字符相连的特点和语音识别的类似,所以我们探讨隐马尔可夫模型运用在无分割的阿拉伯手写体文本图像识别中的参数设计和选择,采用经验值选取恰当的参数,优化算法,实现识别系统自动学习、自动选取、自动优化,并尝试使用多分类器的融合,提高文本的识别率。
【关键词】:离线 OCR PDA 基线检测 特征抽取 K最近邻法 神经网络 隐马尔可夫模型/HMM 分类器融合
摘要4-6 Abstract6-12 第1章 绪论12-19 1.1 引言12 1.2 所选课题的题目及来源12 1.3 课题探讨的目的、意义12-14 1.4 国内外探讨近况略论14-17 1.5 本论文探讨的主要内容17-19 第2章 文本预处理19-45 2.1 图像的获取21 2.2 图像的表述21-25 2.3 二值化处理25-32 2.3.1 全局阈值选取措施26-29 2.3.2 分块EM算法实现灰度图像的二值化29-31 2.3.3 实验结果31-32 2.4 基于连接体的去噪措施32-39 2.4.1 去噪的中值滤波法和均值滤波法33-34 2.4.2 标记连接体的算法实现34-37 2.4.3 实验结果37-39 2.5 规范化39-41 2.6 细化41-42 2.7 基线检测42-43 2.8 倾斜矫正43-44 2.9 本章小结44-45 第3章 特征抽取45-64 3.1 文本图像识别中常用的抽取特征的措施47-57 3.1.1 结构特征47-52 3.1.2 统计特征52-56 3.1.3 合特征56-57 3.2 使用GSC措施抽取阿拉伯手写体文本图像的特征57-63 3.2.1 梯度特征58-59 3.2.2 结构特征59-60 3.2.3 凹度特征60-63 3.3 特征选取63 3.4 本章小结63-64 第4章 分类器的设计64-103 4.1 阿拉伯手写体识别中几种常用的分类器64-73 4.1.1 神经网络65-69 4.1.2 K-最近邻法69-71 4.1.3 隐马尔可夫模型71-73 4.2 隐马尔可夫模型的三个问题73-81 4.2.1 评估问题--向前向后算法74-75 4.2.2 解码问题--viterbi算法75-77 4.2.3 训练问题--Baum-Welch算法和EM算法77-81 4.3 隐马尔可夫模型在OCR中的运用81-91 4.3.1 提取特征序列82-85 4.3.2 基于HMM问题一的OCR识别85-89 4.3.3 基于HMM问题二的OCR识别89-91 4.4 隐马尔可夫模型在AHOCR中的运用91-102 4.4.1 HMM在AHOCR中的探讨近况93-94 4.4.2 HMM的问题一在AHOCR中的运用94-102 4.5 本章小结102-103 第5章 实验与略论103-120 5.1 实验数据集103-108 5.1.1 IFN/ENIT数据库103-105 5.1.2 AHOCR系统的试验数据集105-108 5.2 阿拉伯语识别的评价原则108-110 5.3 实验结果110-112 5.3.1 GSC特征的比较110-111 5.3.2 利用主成分略论进一步降维111-112 5.4 AHOCR系统112-114 5.5 AHOCR识别阿拉伯手写体文本图像114-117 5.5.1 手写体文本图像中文本行分割114-116 5.5.2 连通区域略论116-117 5.6 后处理117-118 5.7 本章小结118-120 第6章 总结与展望120-122 6.1 全文探讨工作总结120-121 6.2 今后待探讨的方向121-122 致谢122-123 参考文献123-131 攻读学位期间的论文及参加的科研情况131 Ⅰ的学术论文131 Ⅱ参加的科研项目131 ,阿拉伯语论文范文,阿拉伯语论文题目 |