阿拉伯语是联合国六种工作语言之一,其文字识别一直是模式识别领域的探讨热点,而脱机手写阿拉伯文字识别更是文字识别领域探讨的重点和难点[1]。由于阿拉伯文字书写的连续性和随意性,该文字识别领域的探讨者之间又缺少沟通交流,加之世界上缺乏公用的手写阿拉伯文数据库等[2],导致目前脱机手写阿拉伯文字的识别发展比较缓慢。阿拉伯文字一共包括28个基本字符,由于字符之间常存在连写或交叠的现象,导致一个单词中会出现一个或者多个子词。字符的形状取决于它在词或者子词中的位置,在28种基本字符当中有22种字符具有4种形状,分别是独立形式、尾写形式、首写形式和中间形式;有6种字符具有2种形状,分别是独立形式和尾写形式[1]。此外,阿拉伯文字经常用点来代表元音以及存在变音符等,导致阿拉伯字符集中的元素由基本的28种发展到160多种。在阿拉伯文字中,字符之间连接的位置形成基线[1],它是一条假想的线。如果能够估计基线的位置,则不仅能检测文字笔划特别是变音符在词中的上下分布,还能够对文字行进行倾斜角度的检测,从而进行倾斜校正。基线检测的措施有很多,包括可以采用水平投影求峰值[3-4]和H......(论文页数是:5页) ,阿拉伯语论文范文,阿拉伯语论文网站 |