【摘要】:
光学字符识别技术(OCR)已经有几十年的发展历史,它能够把纸质文档中的文字图像自动转化为内码,节约了大量的人力、时间和金钱,加快了信息数字化的进程。近年来,由于阿拉伯文档数字化的需求大量增加,阿拉伯文文字图像的脱机手写识别的探讨在业界和学术界获得了越来越多的关注。阿拉伯文OCR的主要难点在“字符切分”上。作为一种字符连写的文字,阿拉伯文在切分算法的设计上和拉丁文与中文有较大不同。本文针对阿拉伯文特点设计并实现了脱机手写阿拉伯文OCR系统中的字符切分关键技术,提出了一种先进行“过切分”,再进行“基元合并”的切分策略。“过切分”是将连写字符的图像切割成字符或字符部件的步骤。我们把这些字符或字符部件称之为基元。本文针对阿拉伯文字在基线上连接的特性,采用基于轮廓特征的几何过切分,通过三种不同的轮廓特征点来得到候选的切分点。“基元合并”是将基元合并成完整字符的步骤。在本文中,提出了一个“多队列基元合并模型”来描述阿拉伯文基元的复杂二维布局情况,并给出解决办法。首先,根据基元的水平位置分成三个队列,构建三维的切分状态空间。由于在此空间中,状态路径描述了基元的候选合并方案,因此,基元合并问题转化为状态路径的寻优问题。字符的置信度由多种鉴别信息(即对决策有用的信息)综合计算。对切分路径的最优化采用动态规划算法。通过实验证实,本文系统的实测性能大幅提升。在多种书写风格的样张上,本系统的性能平均提高了17.9个百分点。
在阿拉伯文切分的实际工作基础上,本文提出基元合并的多队列模型理论。阿拉伯文的基元排列特点与其它文字切分的运用存在内在的联系。关于任何二维的复杂基元排列,其基元间位置约束的信息都可由“位置关系图”来描述。通过位置关系图可以生成多队列模型,进而可利用状态路径对复杂的合并方案进行描述。在此理论观点下,一些预处理步骤其实也可以纳入到切分和识别的框架中。本文对多队列基元合并模型的理论略论是对阿拉伯文脱机手写实践的思想总结,有助于解决复杂基元排列下的字符切分问题。
【关键词】:光学字符识别 文字切分 阿拉伯文 动态规划
摘要3-4 Abstract4-7 第1章 引言7-15 1.1 课题背景7-8 1.2 阿拉伯文字的特点8-10 1.3 阿拉伯文切分措施概述10-12 1.4 本文探讨概述12-13 1.5 本文的主要贡献13-14 1.6 各章内容简介14-15 第2章 过切分技术15-21 2.1 手写阿拉伯文字过切分技术的难点15 2.2 常见措施略论15-19 2.3 基于轮廓特征过切分的算法实现19-20 2.4 本章小结20-21 第3章 多队列基元合并模型21-35 3.1 阿拉伯文字基元合并的难点21-27 3.2 文献调研27-28 3.3 多队列基元合并模型的建模28-31 3.4 动态规划求解最佳路径31-33 3.5 本章小结33-35 第4章 系统和实验略论35-45 4.1 系统总体流程35 4.2 实验结果及略论35-44 4.3 本章小结44-45 第5章 多队列基元合并模型理论建模45-57 5.1 本章引论45-48 5.2 多队列模型48-54 5.3 运用一:阿拉伯文基元的队列结构54 5.4 运用二:含标注符号的古籍汉字基元的队列结构54-56 5.5 本章小结56-57 第6章 结论57-59 6.1 探讨总结57-58 6.2 需进一步开展的工作58-59 参考文献59-64 致谢64-65 个人简历、在学期间的学术论文与探讨成果65 ,阿拉伯语毕业论文,阿拉伯语论文网站 |