脱机手写体汉字识别综述

脱机手写体汉字识别综述
脱机手写体汉字识别综述

脱机手写体汉字识别综述

赵继印1,郑蕊蕊2,吴宝春1,李 敏1

(1.大连民族学院机电信息工程学院,辽宁大连116600;2.吉林大学通信工程学院,吉林长春130025)

摘 要: 脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别

的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展.

关键词: 脱机手写体汉字识别;字符分割;特征提取;分类器设计;汉字识别数据库中图分类号: TP39114 文献标识码: A 文章编号: 037222112(2010)022*******

A Review of Off 2Line Handwritten Chine se Character Recognition

ZH AO Ji 2yin 1,ZHE NG Rui 2rui 2,W U Bao 2chun 1,LI Min 1

(1.College o f Electormechanical and Information Engineering ,Dalian Nationalities Univer sity ,Dalian ,Liaoning 116600,China ;

2.College o f Communication Engineering ,Jilin Univer sity ,Changchun ,Jilin 130025,China )

Abstract : Off 2line handwritten Chinese character recognition is one of the most challenging problems in pattern recognition field.This paper analyzed the latest developments of off 2line handwritten Chinese character recognition in recent years.Main meth 2ods of the key technologies such as Chinese characters segmentation ,feature extraction and classifier design were discussed.This pa 2per also introduced 3typical off 2line handwritten Chinese character recognition databases.Finally ,remain difficult issues and future trends of off 2line handwritten Chinese character recognition were proposed.This paper will guide researchers in this field and pro 2mote development of off 2line handwritten Chinese character recognition technology.

K ey words : off 2line handwritten Chinese character Recognition ;characters segmentation ;feature extraction ;classifier design ;Chinese recognition database

1 引言

汉字识别是模式识别的一个重要分支,也是文字识

别领域最为困难的问题之一,它涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值[1].汉字识别技术可分为印刷体和手写体汉字识别两大类.手写体汉字识别又可分为联机(on 2line )和脱机(off 2line )手写体汉字识别.脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示.

清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品[2].目前,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%~99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求.

目前脱机手写体汉字识别仍处于实验室研究阶

段,成功的商业产品仍未发布[2~4].本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴.

2 手写汉字字体特点

从识别的角度分析,汉字具有如下4个特点.2.1 汉字类别多

汉字的个数很多,国家标准G B1803022000《信息交换用汉字编码字符集基本集的扩充》收录27484个汉字[5].汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题.

收稿日期:2009202216;修回日期:2009206213

基金项目:大连民族学院科研基金(N o.20086201);吉林省科技厅科技引导计划(N o.20090511)

 

第2期2010年2月

电 子 学 报

ACT A E LECTRONICA SINICA V ol.38 N o.2

Feb. 2010

 

2.2 字体结构复杂

汉字基本笔画(stroke)分为:横、竖、撇、点、折[6].笔画的组合方式分为相离、相接和相交三种.特征结构笔画和相应笔画的组合方式在以笔画为特征的汉字识别中起到关键作用.

汉字的组合方式包括独体字和合体字.合体字又包括上下结构、左右结构、品字结构等多种结构.以部件(radical)为基础的手写体汉字识别中,需根据汉字的组合方式对已提取的部件进行重新组合.

2.3 字形变化多

手写体汉字字形总的来说可以分为:手写印刷体(hand2print fashion scripts)、行书(fluent scripts)和草书(cursive scripts).对于相同的字形又因不同人书写风格的差异造成手写汉字的变形.脱机手写汉字在日常生活中以行书为主.对于行书和草书等笔迹相连的情况,字符分割是识别的关键环节,如果出现分割错误,将影响后续识别结果的精度.

2.4 相似字多

汉字集合中相似字较多,由于手写体汉字变形的存在,使得手写体中相似字的区分比印刷体要困难得多[1].比如,在手写体中的一点,可能会因为不当的预处理而消失,从而造成字符的误识.因此要求预处理方法能够针对手写汉字的特点,做到尽量不丢失笔画信息.在识别过程中,对于相似的字体,可以采用更精确的细分类过程进行鉴别.在识别后处理阶段,通常采用相似字符集作为候选字符集的主体.

3 识别过程

对于脱机手写体汉字识别而言,其识别过程通常如图2所示.

原始的手写文稿通过扫描仪等OCR(Optical Charac2 ter Recognition)设备,转换成灰度图像或者二值图像,并进行预处理.字符特征分为统计和结构特征两种模式.识别阶段,根据提取的特征,选择相应的分类器及其组合形式进行模式分类.识别后处理根据前后文字的上下文关系选择最合乎逻辑的字词,能进一步提高识别准确率,最后输出分类结果.

4 图像预处理

很多图像处理技术可以应用于脱机手写体汉字图像,包括:(对灰度图像)二值化、(对二值图像)伪灰度化、去噪、骨架化、边缘提取、倾斜矫正等.本节主要介绍字符图像分割的关键技术和方法.

基于切分的汉字识别方法是目前汉字识别的主流方法.汉字的分割通常首先对整篇文档做行切分,再在行分割的基础上进行单个字符的分割.图3显示了手写体汉字分割处理的一般流程[2]

.

只有当每一单个字符的图像都能正确地从整个文本页面图像中分割出来,才有可能进行正确的文字识别[5].然而,手写体汉字的书写随意性很大,相邻汉字之间的位置关系也复杂多样.手写体汉字的书写可能产生如下4种基本位置排列情况[7,8],如图4所示

.

(1)正常:汉字各自分开独立为整体;单个汉字中各个部件间的距离远小于字间距离.(2)粘连:汉字的某一笔在一点或几点与相邻汉字接触;(3)重叠:汉字间无接触,但无法用垂直分割线分割;(4)过分:汉字左右部分间距过大或汉字内部出现笔画断裂.

604 电 子 学 报2010年

真实手写文档上述情况往往同时出现,这是造成无法正确分割汉字的主要因素,对这种手写体汉字的切分是今后研究的重点和难点问题[8].目前手写体汉字分割广泛采用的方法如下:

4.1 投影法

投影法(Project Profile H istogram,PPH)通过统计图像中每一列(行)黑像素的个数得到投影直方图.在直方图中字符区域对应于波峰,字符间隔对应于波谷.投影法简单,速度快,对印刷体汉字和手写印刷体汉字的分割有相当好的效果,但是会将粘连或重叠的字符识别为一个字符,出现弱分割现象;或将过分字符识别为若干字符,产生过分割现象.

412 连通域分析法

连通域分析法[8](C onnected C om ponent Analysis, CC A)是在整个字符图像中寻找相连的像素作为连通元,分析这些连通元本身的图像属性,判断它们是否属于同一个字符图像,然后利用先验知识对它们进行拆分和合并.连通域分析法对于重叠字符和倾斜字符能够取得理想的分割效果.但使用该方法时连通元容易过碎,使严重断裂的字符图像无法重新合并,真正粘连的字符也不能通过连通元切分开,需在后续的识别模块中加入粘连字符模板或者通过其它方法进行再切分. 4.3 Viterbi算法

m层单向图,建立一个隐马尔可夫模型(H idden M arkov M odel, H M M)来表示该有向图[8,9].图中的每个节点对应隐含状态,有向边表示状态的转移方向,用节点轨迹组成观测序列,其概率分布为分割路径穿过结点的几率大小, m是观测序列的长度.采用Viterbi算法[10~12]寻求分割路径,相当于在图中沿着有向边方向找出所有路径中的最大概率者,组成顺向首尾相接的一串有向边的集合,即得到非线性的分割路径.Viterbi算法对于交错、单处笔划粘连等字符能够得到较好的分割效果,但并未从根本上解决多种粘连方式的分割问题.

4.4 基于识别的方法

将字符分割与识别截然分开,分割将是手写体汉字识别误差的主要来源,基于识别的统计分割方法是汉字分割的新出路[5].基于识别的方法首先将字符分成若干组成部分,并采用合并策略在多条候选的合并路径中通过识别结果选择一条最佳路径[13,14].基于识别的字符分割方法通过识别模块来指导切分,识别结果对分割起着决定性的作用,分割是识别的副产品[9],分割结果依赖于识别分类器的性能[13].

图像预处理会给字符图像带来干扰或形变,引入新的误差.改进的二值化、细线化、字符归一化、字符分割等图像预处理算法[15~17],能够减少预处理带来的字体变形等不利影响,但不能从根本上解决预处理带来的干扰.由于目前尚不能完全实现字符的正确分割,所以,对于基于分割的脱机手写体汉字识别,字符分割的精度直接决定后续汉字识别的精度,是手写体识别系统精度的瓶颈.文献[18]提出了一种无分割的手写体汉字识别方法,并通过实验证明了该方法的可行性.这种方法实质上是对文本进行行分割,再在行分割的基础上提取字符特征,而非精确到单个字符的分割.行分割相对字符分割简单,计算量小,引入误差更小.无分割脱机手写体汉字识别更符合人类识别字符的习惯,将是未来汉字手写体识别的新趋势.

5 特征提取

手写体汉字识别特征提取方法可分为基于结构特征、统计特征和将结构特征和统计特征相融合的方法. 5.1 结构特征

结构特征是汉字识别研究初期的主流方法,需要先抽取结构基本单元,再由这些基本单元构成来描述汉字特征.结构特征比较直观,符合人们书写汉字的过程,能较好地反映汉字的结构特性;缺点是对结构基本单元提取困难,各结构元素之间的拓扑关系复杂,抗干扰性较差.同时,由于汉字的结构特征通常都要利用细化算法提取,不仅计算量大而且会出现形变问题,给汉字识别带来新的噪声影响.

5.1.1 基于特征点

特征点是反映汉字形体特征整体分布状况的关键点.通常对大多数结构稳定的汉字,一旦获得了正确的特征点集,就可能顺利地按一定的策略和步骤(连接笔划、结构匹配等)将汉字形体划归为正确的字类.根据不同的研究思路,研究人员对特征点的定义也不尽相同[19~21].

5.1.2 基于笔画

一个汉字区分于其它汉字的主要特征就是笔画及其所在的位置,“横”、“竖”、“撇”、“捺”四种笔画的数量及其相对位置唯一地确定了一个汉字[22].基于笔画的特征提取方法将字符分解成笔画,并根据笔画的数量、顺序和位置进行识别[23~26].“横”、“竖”、“撇”、“捺”是构成汉字的四种基本笔画,所占比重大,并且提取容易,因而在识别系统中常采用它们作为识别特征.

5.1.3 基于部件

部件是一个居于笔画和单字之间的中间层次,相当于西文的字母.把若干个部件按照一定规则加以组合就可构成方块汉字.我国语言文字工作委员会对G B130001字符集中的20902个汉字逐个进行拆分、归纳与统计后,制定《汉字基础部件表》,共有560个可供独

704

第 2 期赵继印:脱机手写体汉字识别综述

立使用的部件.这560种部件并不都适用于汉字识别,

通常从中选用若干部件作为识别特征[27].文献[28]提出的基于部件的汉字分解示意图,如图5所示.图中的4个汉字具有相同的3个部件,可根据最后一级分解部件来进行识别

.

5.2 统计特征

统计特征一般针对单个汉字,即整字(H olistic ),提取方便,抗干扰能力强.文献[5]指出,汉字结构的复杂,在统计识别方法中,不仅不是缺点,而且使得汉字具有比其他西方文字具有更强的鉴别能力,不仅可以识别成千上万个超多类汉字,而且具有高抗干扰和高鲁棒识别性能,这是结构分析方法无法达到的.统计特征的缺点是没有充分利用汉字的结构信息.本节针对脱机手写体汉字主流的统计特征方法进行介绍.5.2.1 弹性网格特征

弹性网格特征(E lastic M esh ,E M )用一种弹性网格将汉字图像分块,对每一块内的像素进行变换或者分析后产生特征向量[29~32].对字符进行弹性网络的划分能有效地反映汉字的结构细节和字符的共同特征,避免手写体汉字中因个人书写风格差异引起的字体变形和因数据采集、非线性变换等因素导致的样本变形等问题.但该方法各个块之间互不关联,不能体现汉字的整体结构信息.5.2.2 方向线素特征

方向线素特征(Directional E lement Feature ,DEF )首先抽取汉字的轮廓,并考察轮廓点像素的8邻域内的黑像素点在水平、垂直、+45°、-45°四个方向上的分布情况.如有符合四个方向上的任一种情况,则该像素对应方向上的方向线素值加一个常数[33~35].方向线素特征同时反映了字符的结构和统计特征,比较全面地代表图像信息,是汉字识别领域一种成熟的特征提取方法.但方向线素特征的特征维数多,在进行特征匹配之前要对特征向量进行降维处理,增加了识别算法的复杂度.5.2.3 G abor 特征

G abor 滤波器是窄带带通滤波器,有明显的方向选择和频率选择特性,能在空域和时域同时达到最优联

合分辨率[31],因此G abor 滤波器在脱机手写体汉字识别中提取特征方面得到了广泛应用[36~38].G abor 变换提取汉字特征充分反映了笔画结构在空间上的局域性,笔画的方向性以及在频域上笔画与干扰的可分性等重要特性,提高了识别算法的鲁棒性和对细节的分辨率.G abor 滤波器缺点在于特征提取时间较长且提取的特征数据存在冗余性,需通过主成分分析等方法进行压缩.5.2.4 矩特征

脱机手写体汉字识别中采用Hu 不变矩、Legendre 矩、Z ernike 矩、K raw tchouk 矩、小波矩[3946].Hu 矩为非正交矩,含有大量冗余信息.正交矩对模式具有位移、旋转和变换不变性,在应用中最具代表性的是Legendre 矩

和Z ernike 矩.CH O 2H UAK THE 和RO LAND T.CHIN [47]

对Legendre 矩和Z ernike 矩在噪声敏感性、信息冗余和图像表示能力三方面进行了实验对比和理论分析,结论表明Z ernike 矩的效果在各方面都优于Legendre 矩.Z ernike 矩可以任意构造高价矩,因而包含更全面的图像信息,所以Z ernike 矩识别效果更好.与Z ernike 矩和Legendre 矩等连续正交矩特征相比,K raw tchouk 矩是数字域的离散正交矩,不存在数字化过程中所带来的近似误差问题,在计算过程中不需要进行坐标转换,而且构造简单,更加适合用来描述数字图像[46].小波矩能同时得到图像的全局特征和局部特征,因而在识别相似形状的物体时有更高的识别率[48,49].

对于手写体汉字识别,单独运用结构特征和统计特征中的任何一种单一的特征,必然存在识别的盲区.将汉字结构特征和统计特征等多种特征相结合,可以实现各种特征的优势互补,能够更全面地反映汉字的特征.特征融合后的脱机手写体汉字通常具有多维的特征,增加了识别算法的计算复杂度,因此普遍采用PC A ,LDA 和FDA 等方法[50~52]对特征向量进行降维处理后再送入分类器分类.多特征融合的方法成为手写体汉字识别特征提取的主流方法[53~56],是未来发展的必然趋势.如果能够借鉴相关领域的研究成果,引入更适于手写体汉字的特征描述方法,特别是能够直接从原始字符图像提取的特征,将简化图像预处理步骤,减少因预处理带来的误差,进一步提高脱机手写体汉字的识别精度.6 分类器设计

手写体汉字识别的对象是几千个(种)汉字,脱机手写体汉字识别常用的分类器可分为单分类器和多分类器集成两种.多分类器集成的方法是目前的主流技术,同时也是未来的发展趋势.6.1 单分类器6.1.1 改进的二次判别函数

改进的二次判别函数(M odified Quadratic Discrim ina 2

804 电 子 学 报2010年

tion Function,M QDF)分类器以一个G auss分布去描述每个类的样本分布,直接采用常数代替偏小特征值,有效地缓解了小特征值估计误差所带来的系统性能下降[5].基于统计模型的M QDF分类器便于设计与实现,且具有很好的鲁棒性和较高的识别准确率,因此在脱机手写体汉字识别中得到广泛的应用[57,58].

6.1.2 支持向量机

支持向量机(Support Vector M achine,S VM)根据Vap2 nik提出的结构风险最小化原理,通过最大化分类间隔,使学习机的泛化性能尽量提高,其优越性在理论和实验方面都得到了深入地研究和验证.S VM是一个两类问题的判别方法,在对多类问题实现分类时,采用一对一、一对多、S VM决策树和有向无环图支持向量等分解策略,因此S VM的计算复杂度和时间复杂度较大,一般不用于直接分类[52].针对这个问题,目前研究者[15,59~63]提出了如下解决方法:(1)采用S VM作细分类;(2)将大规模字符集划分成小的子集;(3)采用多种S VM算法的改进形式.引入各种改进的快速S VM多分类算法[64~66]到脱机手写体汉字识别领域中,也能够提高识别的速度.

6.1.3 人工神经网络

人工神经网络(Artificial Neural Netw ork,ANN)具有并行处理、自组织、自适应和学习能力,被广泛的应用

,包括:BP网络[67]、多层感知器网络、模块径向基神经网络[50]、自适应振荡神经网络[68,69]、H opfield网络、自组织特征映射网络等[1].ANN 用于大字符集分类时,训练时间和分类时间太长,一般不用于直接分类[52].文献[70]针对这个问题,提出了在预分类结果的基础上,采用简化的样本集对ANN进行训练的策略,在不降低识别效果的基础上,大大缩短了ANN在大样本集上的收敛时间.

6.1.4 隐马尔科夫模型

常用的统计语言模型是建立在将文本语言看作为字或词的不同阶的马尔可夫链的基础上,语言相关模型的参数可以通过大型语料库的学习而获得.语言模型和单字识别结果的可信度结合,利用Viterbi算法,获得在考虑上下文信息的语言模型条件下的最优文本识别结果.由于实际资源的限制,实际系统中往往采用字或词的一阶或二阶马尔科夫模型[71,72].隐马尔科夫模型适合于大规模分类,缺点是尚缺乏公认权威的语言模型.目前广泛应用的是对某种特定领域进行小规模的建模,如邮政地址系统,银行手写支票金额的模型. 6.2 多分类器集成

多分类器集成算法通过特定的组合方式,能够对单分类器取长补短,发挥各个组成分类器的最大优势.多分类器集成算法中每一个组成的分类器称为元分类器,可以采用611节介绍的任何一种单分类器的形式.集成算法根据其结构可分为串行和并行结构两类.

6.2.1 串行结构

串行结构的集成算法[73]是根据汉字识别特点对整个识别过程进行分级,或分阶段处理.前一级的输出结果是后一级的输入,后一级识别是对前一级识别的细化和延续,实现多特征多方法的互补以及多识别级间信息的利用,以进一步提高汉字识别率.

6.2.2 并行结构

并行结构的集成算法首先构造多个分类器,这些分类器基于不同特征、不同分类器形式或是不同训练样本集合,每个分类器独立训练,相互之间没有影响.针对各分类器的输出结果,采取一定的规则进行融合或表决,得到最终的输出结果.常用的表决策略有投票法、D2S(Dem pster2Shafer)法、行为知识空间法、综合集成法、基于置信度的神经网络集成法等[1].从模式识别的观点来说,汉字识别是一种超多类的模式集合,已有的适用于模式类别较少的识别方法和理论已不完全适用[27].应选择针对大规模数据集的分类方法或者对汉字类别进行合理的划分,以适应目前的分类方法.采用结合了串、并行结构的混合结构多分类器集成对脱机手写体汉字进行分类是未来的发展趋势.串行分类器具有分类递进,后级分类器能够弥补前一级识别的不足,实现细节上的互补的优点;并行分类器能够在全局的分类器输出结果间取得整体上的平衡.因此,采用混合结构的多分类器集成策略,能够实现细节与整体上的双保险,从而提高脱机手写体汉字识别的精度.

7 数据库

建立手写汉字数据库是研究和开发手写汉字识别技术的基础.目前国内外一些研究团体已建立并公开了大规模的字符识别数据库.脱机手写体汉字识别的结果在这些数据库上实验,更有利于公正客观地对比实验结果,促进汉字识别技术研究的深入与发展.目前,具有典型代表性的数据库有以下几种.

7.1 ET L字符数据库

ET L字符数据库由日本电子工业发展协会(Japan E lectronic Industry Development Association,现在的Japan electronics and in formation technology industries association)、大学和研究机构联合协助的电工技术实验室(E lec2 trotechnical Laboratory,现在的Tsukuba central2,national institute of advanced industrial science and technology,AIST)收集[74].ET L数据库包含了120万手写和机器印刷字符图片,涵盖了用于识别研究的日文,中文,拉丁文和数字字符.数据库图片分别有60×60,64×63,72×76,和

904

第 2 期赵继印:脱机手写体汉字识别综述

128×127不同像素规格.字符图片文件包含不止一个记录,每个记录有一个字符图片和对应的ID 信息的编

码.该数据库不包含书写者信息.图6是ET L8中的字符样本[24]和ET L9B 数据库中的部分字符[56]

.

7.2 HC L2000数据库

HC L2000数据库[75]是由北京邮电大学信息工程系在国家863计划的资助下研发的一个大规模脱机手写汉字数据库系统.该数据库面向一级汉字,包含了3755×1300个手写汉字样本和1300个书写者的个人信息,可实现汉字样本信息和书写者信息间的互查,为研究各类人员的文字书写特征及影响识别率的相关因素提供了方便.每个汉字样本采用64×64个二值像素描述,占用512字节.书写者信息除书写者标识信息外,还包括性别、年龄、职业、文化程度、书写工具等.图7是两幅

来自于HC L2000数据库[76]

的字符图片,编号分别为Hh451和Hh453.HC L2000数据库是目前我国汉字识别领域被广泛采用的数据库

.

7.3 HIT 2MW 数据库

HIT 2MW 数据库[3,18]由哈尔滨工业大学计算机科学与技术学院开发.该库由780多个书写者在无监督的情况(无监督情况是指书写参与者与数据库收集者并不发生正面接触,而是通过邮寄等方式将数据库页面交与书写者,书写者按照自己习惯的书写规则在一块未经分格的区域书写题签上标注的内容,允许出现涂改、文本行倾斜和交叠等复杂手写现象)下书写完成,优化出合格的手写样本853份.HIT 2MW 数据库字量为

186444字(包括标点、字母和汉字),涵盖了大部分G B2312280一级汉字,一定量的G B2312280二级汉字,甚

至G B2312280字符集以外的少量汉字.图8和图9是两

幅来自HIT 2MW 数据库的样本,编号分别为b04090303和

b04090902.

HIT 2MW 数据库中的手写体样本不是按照孤立的

汉字书写,而是按照一定的规则从《人民日报》上随机抽取的一段200字左右具有一定含义的文字,因此可以看作是真实的手写体样本.迄今为止,HIT 2MW 数据库已被美国U C Berkeley ,日本T oky o 大学,清华大学,吉林大学和华南理工大学等多家科研院所采用,应用领域主要集中在中文文档的行切分、汉字的切分识别、中文文本的无切分识别、笔迹鉴别和签名验证等方面.8 识别后处理及评价准则

手写体汉字识别后处理一般是根据上下文关系对单字的识别进行处理.利用后处理技术,能够实现对单字识别结果的确认或者纠错,进一步提高整个汉字识别系统的正确率.目前主流的后处理技术包含以下3个步骤:(1)根据上下文关系建立基于词或字的N 元语法(N 2gram )统计语言模型,即N -1阶M arkov 模型.实践中最常见的是bi 2gram 或tri 2gram 模型[77~81];(2)确定并调整候选字的相似字集,作为候选字符集;(3)在候选字符集上,根据统计语言模型,以句子为处理单元,采用Viterbi 算法选择具有最大概率的句子路径,从而确定相

014 电 子 学 报2010年

应的汉字.

由于汉语语法的复杂性与灵活性,对通用的手写体汉字识别做出符合语法规则的模型很难.语言模型包含规则模型和统计模型两类.N2gram语言模型是基于统计的语言模型,目前应用中占有绝对优势,研究较成熟.将两种模型相融合形成综合模型能够相互补充,同时也是未来的发展趋势[82,83].随着语言模型的不断完善,汉字识别后处理技术的精度必然能够实现新的突破;研究者还可以尝试将综合语言模型运用到汉字识别后处理中,以进一步提高后处理的效果.文献[84]提出一种结合传统统计语言模型和特定语言模型的自适应语言模型,能够充分利用已校对信息自动修正候选字符集,提高了后处理的正确率.

识别率、误识率和拒识率是识别系统的三个性能指标,它们之和应该等于100%[27].

9 总结与展望

脱机手写体汉字识别技术发展迅速,特定场合的脱机手写体汉字识别系统的研究也逐步走向实用.本文分析总结了近年来脱机手写体汉字识别的最新进展,讨论了脱机手写体汉字分割、特征提取和识别分类器设计等关键技术的各种主流方法,介绍了汉字识别典型数据库,明确了脱机手写体汉字识别的核心技术呈现如下发展趋势:(1)改进图像预处理技术并简化图像预处理步骤,减少由于预处理引入的字体变形;(2)研究基于无分割的脱机手写体汉字识别技术,减少因字符分割引入的误差;(3)融合汉字的结构和统计特征,引入新的汉字特征描述方法,选择能够直接从原始字符图像提取的新特征;(4)采用混合结构的集成分类器,实现细节与整体上的双保险;选择针对大规模数据集的分类方法;对汉字数据集进行合理的优化,以适应目前的分类方法.

汉字识别经历了40余年的发展,目前在印刷体和联机汉字识别方面都取得了长足进步,商业产品趋于成熟,但脱机手写体汉字识别仍不能满足用户的实际要求.其难点集中于脱机手写体汉字的正确分割、特征提取和对超大规模数据集的分类问题.本文明确了脱机手写体汉字识别的难点和今后发展趋势,能够为研究者在该领域的研究指明方向,共同促进脱机手写体汉字识别技术的发展.

参考文献:

[1]陈友斌,丁晓青,吴佑寿,等.非特定人脱机手写汉字识别

[OL].中国计算机报,1997206223.https://www.360docs.net/doc/422260411.html,idnet.

com/media/ciw/663/01350001.htm,2008206227.

[2]Sargur N.Srihari,Xuanshen Yang,Gregory R.Ball.Offline

Chinese handwriting recognition:an assessment of current tech2 nology[J].Front Computer Science of China,2007,1(2):137 -155.

[3]Tonghua Su,Tianwen Zhang,Dejun Guan.Corpus2based HIT2

MW database for offline recognition of general2purpose Chinese handwritten text[J].International J ournal on Document Analy2 sis and Recognition,2007,10(1):27-38.

[4]Tong2Hua Su,Tian2Wen Zhang,Hu2Jie Huang,et al.HMM2

based recognizer with segmentation2free strategy for uncon2 strained Chinese handwritten text[A].Proceedings of the Ninth International Conference on Document Analysis and Recogni2 tion(ICDAR)[C].Curitiba,Brazil,IEEE Computer Society, 2007.133-137.

[5]丁晓青.汉字识别研究的回顾[J].电子学报,2002,30(9):

1364-1368.

Ding Xiaoqing.Chinese character recognition:a review[J].Ac2 ta Electronica Sinica,2002,30(9):1364-1368.(in Chinese) [6]汉字结构[OL]2百度百科.https://www.360docs.net/doc/422260411.html,/view/

1137679.htm,200827216.

[7]高彦宇,杨扬.无约束手写体汉字切分方法综述[J].计算

机工程,2004,30(5):144-146.

Gao Yanyu,Yang Yang.Survey of unconstrained handwritten Chinese character segmentation[J].Computer Engineering, 2004,30(5):144-146.(in Chinese)

[8]邵洁,成瑜.关于手写汉字切分方法的思考[J].计算机技

术与发展,2006,16(6):184-190.

Shao Jie,Cheng Yu.A survey of methods in handwritten Chi2 nese character segmentation[J].Computer Technology and De2 velopment,2006,16(6):184-190.(in Chinese)

[9]马瑞.非限制手写字符分割中相关技术与算法的研究

[D].南京:南京理工大学,2007.

Rui Ma.Research on segmentation of unconstrained handwritten characters[D].Nanjing:Nanjing University of Science and Technology,2007.(in Chinese)

[10]Zhizhen Liang,Pengfei Shi.A metasynthetic approach for seg2

menting handwritten Chinese character strings[J].Pattern Recognition Letters,2005,26(10):1498-1511.

[11]Y i2Hong Tseng,Hsi2Jian Lee.Recognition2based handwritten

Chinese character segmentation using a probabilistic Viterbi algorithm[J].Pattern Recognition Letters,1999,20(8):791-

806.

[12]马瑞,杨静宇.一种有效的手写汉字多部分割方法[J].

中国图像图形学报,2007,12(11):2062-2067.

Ma Rui,Yang Jing2yu.An effective multi2stage segmentation method for handwritten Chinese characters[J].J ournal of Im2 age and Graphics,2007,12(11):2062-2067.(in Chinese) [13]Wuyi Yang,Shuwu Zhang,Haibo Zheng,et al.A recognition2

based method for segmentation of Chinese character in images and videos[A].2008International Conference on Audio,Lan2

114

第 2 期赵继印:脱机手写体汉字识别综述

guage and Image Processing,Proceedings(ICALIP2008)[C].

Shanghai,China,IEEE Computer Society,2008.723-728. [14]Guohong Fu,Chunyu K it,J onathan J.Webster.Chinese word

segmentation as morpheme2based lexical chunking[J].Infor2 mation Sciences2008,178(9):2282-2296.

[15]Jian2xiong Dong,Adam Krzyzak,Ching Y.Suen.An im2

proved handwritten Chinese character recognition system us2 ing support vector machine[J].Pattern Recognition Let2 tersm2005,26(12):1849-1856.

[16]王建平,钱自拓,王金玲,等.基于数学形态学的图像汉

字笔画细化和提取[J].合肥工业大学学报(自然科学版),2005,28(11):1431-1435.

WANG Jian2ping,QIAN Zi2tuo,WANG Jin2ling,et al.Chi2 nese characters stroke thinning and extraction based on mathe2 matical morphology[J].J ournal of Hefei University of Tech2 nology,2005,28(11):1431-1435.(in Chinese)

[17]方树名,张媛媛.免细化过程的脱机手写体汉字的动态

信息提取[J].科技信息,2008(1):87-88.

[18]苏统华.脱机中文手写识别2从孤立汉字到真实文本

[D].哈尔滨:哈尔滨工业大学,2008.

Su Tonghua.Off2line recognition of Chinese handwriting:from isolated character to realistic text[D].Harbin:Harbin Institute of Technology,2008.(in Chinese)

[19]周昌乐,张雄伟.一种基于段化的手写汉字特征点提取

方法及其实现[J].电子学报,1997,25(5):57-60.

ZHOU Chang2le,Xiong2wei.An abstracting method and its implementation for feature2points in handwritten Chi2 nese[J].Acta Electronic Sinica,1997,25(5):57-60.(in Chinese)

[20]耿强,马珏.手写体汉字识别笔画提取方法的研究[J].

江苏广播电视大学学报,2006,1(17):41-43,81.

GEN Qiang,MA J ue.Stroke Extracting method for handwrit2 ten Chinese character recognition[J].J ournal of Jiangsu Radio &Television University,2006,1(17):41-43,81.(in Chi2 nese)

[21]刘伟,朱宁波,李德鑫,等.基于模糊子笔画统计特征的

手写体汉字识别[J].计算机工程与应用,2007,43(1): 239-241,244.

[22]杨玲,毛以芳,吴天爱.基于弹性网格和方向线素特征的

脱机手写汉字识别[J].辽宁省交通高等专科学校学报.

2008,10(1):38-39.

Yang Ling,Mao Y ifang,Wu Tianai.Off2line handwrtitten Chinese character recognition research based on elastic meshes and directional line element feature[J].J ournal of Liaoning Provincial College of Communications,2008,10(1):38-39.

(in Chinese)

[23]Ruini Cao,Chew Lim Tan.A model of stroke extraction from

Chinese character images[A].Proceedings of15th Internation2 al Conference on Pattern Recognition[C].Barcelona,Spain,

IEEE Computer Society,2000.4368-4371.

[24]Cheng2Lin Liu,In2J ung K im,Jin H.K im.Model2based stroke

extraction and matching for handwritten Chinese character recognition[J].Pattern Recognition,2001,34(12):2339-

2352.

[25]王建平,蔺菲,陈军.基于手写体汉字笔画提取重构的识

别方法[J].计算机工程,2007,33(10):230-232,248.

Wang Jianping,Lin Fei,Chen J un.Recognition method based on handwritten Chinese characters stroke extraction recom2 bined[J].Computer Engineering,2007,33(10):230-232, 248.(in Chinese)

[26]Jia Zeng,Zhi2Qiang Liu.Markov random fields for handwrit2

ten Chinese character recognition[A].Proceedings of the In2 ternational Conference on Document Analysis and Recognition (ICDAR)[C].Seoul,Republic of Korea,IEEE Computer So2 ciety,2005.101-105.

[27]吴佑寿.教电脑识字:浅谈汉字识别[M].北京:清华大

学出版社,广州:暨南大学出版社,2000,12.

[28]Shi D M,Damper R I,Guan S R.Offline handwritten Chinese

character recognition by radical decomposition[J].Association for Computing Machinery Transactions on Asian Language In2 formation Processsing(TALIP),2003:2(1):27-48. [29]何浩智,朱宁波,刘伟.基于霍夫变换和弹性网格的手写

汉字识别方法[J].计算机仿真,2008,25(1):240-243.

He Hao2zhi,Zhu Ning2bo,Liu Wei.Handwrtten Chinese char2 acter recognition based on Hough transformation and elastic mesh[J].Computer Simulation,2008,25(1):240-243.(in Chinese)

[30]金连文,徐秉铮.手写体汉字识别中的一种新的特征提

取方法[J].电路与系统学报,1997,2(3):7-12.

Jin Lian2wen,Xu Bin2zheng.Directional cellular feature ex2 traction with elastic meshing for handwritten Chinese character recognition[J].J ournal of Circuits and Systems,1997,2(3):7 -12.(in Chinese)

[31]金连文,覃剑钊.手写汉字识别弹性网格Gabor特征提

取方法的研究[J].计算机应用研究,2004,21(12):163-

165.

Jin Lian2wen,Qin Jian2zhao.Study on Gabor filter2based handwritten Chinese character feature extraction[J].Applica2 tion Research of Computers,2004,21(12):163-165.(in Chinese)

[32]陈光,张洪刚,郭军.一种新的加权动态网格汉字特征抽

取方法[J].中文信息学报,2007,21(2):89-93.

Chen Guang,Zhang Hong2gang,Guo J un.Feature extraction for handwritten Chinese character by weighted dynamic mesh based on nonlinear normalization[J].J ournal of Chinese infor2 mation Processing,2007,21(2):89-93.(in Chinese) [33]张睿,丁晓青,方驰.脱机手写汉字识别的最优采样特征

新方法[J].中国图象图形学报,2002,7(2):176-180.

214 电 子 学 报2010年

Zhang Rui,Ding Xiao2qing,Fang Chi.New method of optimal sampling features for offline handwritten Chinese character recognition[J].J ournal of Image and Graphics,2002,7(2): 176-180.(in Chinese)

[34]Nei Kato,Masato Suzuki,Shin ichiro Omachi,et al.A hand2

written character recognition system using direction element feature and asymmetric mahalanobis distance[J].IEEE Trans2 actions on Pattern Analysis and Machine Intelligence,1999,21

(3):258-262.

[35]马少平,夏莹,朱小燕.基于模糊方向线素特征的手写体

汉字识别[J].清华大学学报(自然科学版),1997,37(3): 42-45.

Ma Shaoping,Xia Y ing,Zhu Xiaoyan.Handwritten Chinese characters recognizing based on fuzzy directional line element feature[J].J ournal of Tsinghua University(Sci&Tech), 1997,37(3):42-45.(in Chinese)

[36]王学文,丁晓青,刘长松.基于Gabor变换的高鲁棒汉字

识别新方法[J].电子学报,2002,30(9):1317-1322.

Wang Xue2wen,Ding Xiao2qing,Liu Chang2song.Gabor fil2 ters based feature extraction for robust Chinese character recognition[J].Acta Electronica Sinica,2002,30(9):1317-

1322.(in Chinese)

[37]陈蓉,邓洪波,金连文.一种基于局部Gabor滤波器组的

手写体汉字识别方法[J].计算机应用,2007,27(5):

-1224.

Cheng Rong,Deng Hong2bo,Jin Lian2wen.Handwritten Chi2 nese character recognition based on local Gabor filter bank [J].Computer Applications,2007,27(5):1222-1224.(in Chinese)

[38]Kai Ding,Zhibin Liu,Lianwen Jin,et al.A comparative study

of Gabor feature and gradient feature for handwritten Chinese character recognition[A].Proceedings of the2007Internation2 al Conference on Wavelet Analysis and Pattern Recognition (ICWAPR’07)[C].Beijing,China,IEEE Inc.,2007.1182 -1186.

[39]崔金魁,杨杨,颉斌.一种基于集成BP网络的手写汉字

识别方法[J].微电子学与计算机,2006,23(8):121-124.

Cui Jin2kui,Yang Yang,Xie Bin.A handwritten Chinese char2 acter recognition method based on integrated BP network[J].

Microelectronics&Computer,2006,23(8):121-124.(in Chinese)

[40]徐赵辉,杨杨,颉斌.基于弹性网格和Legendre矩的手写

体汉字识别方法[J].计算机工程与应用,2006,42(17): 163-165.

Xu Zhaohui,Yang Yang,Xie Bin.Handwritten Chinese char2 acter recognition based on elastic mesh and Legendre moment [J].Computer Engineering and Applications,2006,42(17): 163-165.(in Chinese)

[41]李玉静,杨杨,颉斌.基于矩和Gabor变换的手写体汉字

识别方法[J],信息技术,2003,27(12):44-46.

Li yu2jing,Yang yang,Xie Bin.Handwritten Chinese character recognition based on moment and Gabor transformation[J].

Information Technology,2003,27(12):44-46.(in Chinese) [42]高彦宇,杨杨.基于正交特征的手写体汉字识别方法

[J].仪器仪表学报,2003,24(4S):446-447.

Gao Yanyu,Yang Yang.Handwritten Chinese character recog2 nition based on orthogonal feature[J].Chinese J ournal of Sci2 entific Instrument,2003,24(4S):446-447.(in Chinese) [43]王先梅,杨扬,颉斌,等.基于Krawtchouk矩与HMM的脱

机手写汉字识别技术[A].The Sixth World Congress on Intelligent Control and Automation,2006(WCICA2006)[C].

Dalian,China,IEEE press,2006.10068-10072.

Xianmei Wang,Yang Yang,Bin Xie,et al.HMM2based off2 line handwritten Chinese characters recognition using Krawtchouk moments[A].The Sixth World Congress on In2 telligent Control and Automation,2006(WCICA2006)[C].

Dalian,China,IEEE Press,2006.10068-10072.(in Chinese) [44]Xianmei Wang,Bin Xie,Yang https://www.360docs.net/doc/422260411.html,bining krawtchouk

moments and HMMs for offline handwritten Chinese character recognition[A].20063rd International IEEE Conference Intel2 ligent Systems(IS’06)[C].London,United kingdom,IEEE Inc.,2006.661-665.

[45]范晓峰,施泽生.基于小波矩的新型图形识别算法[J].

计算机工程与应用,2001,37(7):47-52.

Fan Xiaofeng,Shi Zesheng.A new method of image recogni2 tion based on wavelet moment[J].Computer Engineering and Applications,2001,37(7):47-52.(in Chinese)

[46]王先梅,黄康,林子钰.Krawtchouk矩在脱机手写汉字识

别中的应用[J].广西师范大学学报(自然科学版),2006, 24(4):227-230.

Wang Xian2mei,Huang Kang,Lin https://www.360docs.net/doc/422260411.html,ing Krawtchouk moments for off2line handwritten Chinese character recogni2 tion[J].J ournal of Guangxi Normal University(Natural Sci2 ence Edition),2006,24(4):227-230.(in Chinese)

[47]CHO2HUA K THE,ROLAND T.CHIN.On image analysis by

the methods of moments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1988,10(4):496-513. [48]姜璐,章品正,舒华忠.矩在面部表情识别中的应用[J].

东南大学学报(自然科学版),2004,34(4):557-560.

Jiang Lu,Zhang Pinzheng,Shu Huazhong.Moment application to human facial expression recognition[J].J ournal of South2 east University(Natural Science Edition),2004,34(4):557-

560.(in Chinese)

[49]杨蕊红,潘泉,程咏梅.小波不变矩在图像识别中的应用

研究[J].计算机应用研究,2005,22(11):239-243.

Yang Rui2hong,Prn Quan,Cheng Yong2mei.Application of invariant wavelet moment to image recognition[J].Applica2 tion Research of Computers,2005,22(11):239-243.(in

314

第 2 期赵继印:脱机手写体汉字识别综述

Chinese)

[50]居琰,汪同庆,彭建,等.特征融合用于手写体汉字识别

研究[J].电子科技大学学报,2007,31(3):229-233.

J u Yan,Wang Tongqing,Peng Jian,et al.Research on hand2 written Chinese character recognition using feature fusion and modular RBF classifier[J].J ournal of UEST of China,2007, 31(3):229-233.(in Chinese)

[51]刘海龙,丁晓青.基于镜像学习和复合二次距离的手写

汉字识别[J].清华大学学报(自然科学版),2006,46(7): 1239-1242.

Liu Hailong,Ding Xiaoqing.Handwritten Chinese character recognition based on mirror image learning and the compound Mahalanobis function[J].J ournal of Tsinghua University(Sci &Tech),2006,46(7):1239-1242.(in Chinese)

[52]Cheng2Lin Liu,Hiromichi Fujisawa.Classification and learn2

ing methods for character recognition:advances and remaining problems[A].Studies in computational intelligence:Machine Learning in Document Analysis and Recognition[C].Springer Verlag,Berlin,Heidelberg,2008.139-161.

[53]李美丽,杨杨,李岩.基于形态学变换的有限集手写体汉

字识别[J].传感技术学报,2007,20(5):1184-1187.

Li Mei2li,Yang Yang,Li Yan.Small set handwritten Chinese character recognition based on mathematical morphology[J].

Chinese J ournal of Sensors and Actuators,2007,20(5):1184 -1187.(in Chinese)

[54]Y ih2Ming Su,J hing2Fa Wang.A novel stroke extraction

method for Chinese characters using Gabor filters[J].Pattern

Recognition,2003,36(3):635-647.

[55]Xuewen Wang,Xiaoqing Ding,Changsong Liu.Gabor filters2

based feature extraction for character recognition[J].Pattern Recognition,2005,38(3):369-379.

[56]Weipeng Zhang,Yuan Yan Tang,Yun Xue.Handwritten char2

acter recognition using combined gradient and wavelet feature

[A].2006International Conference on Computational Intelli2

gence and Security(ICCIAS)[C].Guangzhou,China,IEEE Computer Society,2006.662-667.

[57]付强,丁晓青,刘长松.用于手写汉字识别的级联MQDF

分类器[J].清华大学学报(自然科学版),2008,48(10): 1605-1608.

Fu Qiang,Ding Xiaoqing,Liu Changsong.Cascade MQDF classifier for handwritten character recognition[J].J ournal of Tsinghua University(Sci&Tech),2008,48(10):1605-

1608.(in Chinese)

[58]Hailong Liu,Xiaoqing Ding.Handwritten character recognition

using gradient feature and quadratic classifier with multiple discrimination schemes[A].8th International conference on Document Analysis and Recognition[C].Seoul,Republic of Korea,IEEE Computer Society,2005.19-25.

[59]高学,金连文,尹俊勋.一种基于支持向量机的手写汉字

识别方法[J].电子学报,2002,30(5):651-654.

Gao Xue,Jin Lian2wen,Y in J un2xun.A new SVM2based handwritten Chinese character recognition method[J].Acta Electronic Sinica,2002,30(5):651-654.(in Chinese) [60]王建平,张丽萍.脱机手写体汉字识别的支持向量机方

法研究[J].计算机与数字工程,2008,36(4):146-150.

Wang Jianping,Zhang Liping.Research on method of off2line handwritten Chinese characters recognizing based on SVM [J].Computer&Digital Engineering,2008,36(4):146-

150.(in Chinese)

[61]Fu Chang.Techniques for solving the large2scale classification

problem in Chinese Handwriting Recognition[A].Lecture Notes in Computer Science:Arabic and Chinese Handwriting Recognition[C].College Park,MD,United states,Spinger Verlag,Heidelberg,Germany,2008.161-169.

[62]高彦宇,杨杨,陈飞.基于融合特征和LS2SVM的脱机手

写体汉字识别[J].北京科技大学学报,2005,27(4):509

-512.

Gao Yanyu,Yang Yang,Chen Fei.Off2line handwritten Chi2 nese character recognition based on fusion features and LS2 SVM[J].J ournal of University of Science and Technology Beijing,2005,27(4):509-512.(in Chinese)

[63]张芳,汪成军.基于支持向量机的手写体汉字的识别

[J].计算机与数学工程,2006,34(1):65-68.

Zhang Fang,Wang Chenjun.Handwritten Chinese characters recognition based on support vector machine[J].Computer& Digital Engineering,2006,34(1):65-68.(in Chinese) [64]官理,祖峰,唐文胜.快速的支持向量机多类分类研究

[J].计算机工程与应用,2008,44(5):177-179.

GUAN Li,ZU Feng,TANG Wen2sheng.Research of fast multicalss SVM classification[J].Computer Engineering and Applications,2008,44(5):177-179.(in Chinese)

[65]刘冰.多类SVM分类算法的研究和改进[J].电脑知识

与技术,2007(6):1590-1593.

Liu Bing.Research and improvement of classification methods for multi2class support vector machines[J].Computer Knowl2 edge and Technology,2007(6):1590-1593.(in Chinese) [66]Kok Seng Chua.E fficient computations for large least square

support vector machine classifiers[J].Pattern Recognition Let2 ters,2003,24(1-3):75-80.

[67]安建慧,宋柏.模拟退火算法在汉字图像识别中的应用

与研究[J].计算机应用,2007,27(12):89-90.

[68]黄戈祥,陈继荣.ART2神经网络在手写体汉字识别中的

应用[J].计算机仿真,2006,23(7):153-156.

Huang Ge2xiang,Chen Ji2yong.Application of ART2neural netwrok to handwritten Chinese character recognition[J].

Computer Simulation,2006,23(7):153-156.(in Chinese) [69]Da Lu,Qiwei Chen,Wei Pu,et al.Study on preclassification

for handwritten Chinese character based on neural net and

414 电 子 学 报2010年

fuzzy matching algorithm[A].2007IEEE International Con2 ference on Robotics and Biomimetics(ROBIO)[C].Yalong Bay,Sanya,China,IEEE Computer Society,2007.1344-

1349.

[70]Xue Gao.A training strategy of class2modular neural network

classifier for handwritten Chinese character recognition[A].

Intelligent Computing in Signal Processing and Pattern Recog2 nition(ICIC2006)[C].Kunming,China,Springer,Berlin,Hei2 delberg2006.657-662.

[71]赵巍,刘家锋,唐降龙.基于部件HMM级联的联机手写

体汉字识别方法[J].哈尔滨工业大学学报,2004,36(5): 570-573.

Zhao Wei,Liu Jia2feng,Tang Xiang2long.An on2line free handwritten Chinese character recognition method based on component cascaded HMMs[J].J ournal of Habin Institute of Technology,2004,36(5):570-573.(in Chinese)

[72]刘健,李会方,牛新伟.基于MHMM模型的手写体汉字

识别算法[J].信息安全与通信保密,2007,(2):75-77.

Liu Jian,Li Huifang,Niu Xinwei.The algorithm of handwrit2 ten Chinese character recognition based on multiple HMM[J].

Information Security and Communications Privacy,2007,(2): 75-77.(in Chinese)

[73]高彦宇,杨杨.脱机手写体汉字识别研究综述[J].计算

机工程与应用,2004,40(7):74-77.

Gao Yanyu,Yang Yang.A survey of off2line handwritten Chi2 nese vharacter recognition[J].Computer Engineering and Ap2 plications,2004,40(7):74-77.(in Chinese)

[74]http://www.is.aist.go.jp/etlcdb/[OL],2008-11-14.

[75]郭军,蔺志青,张洪刚.一个新的脱机手写汉字数据库模

型及其应用[J].电子学报,2000,28(5):115-116.

Guo J un,Lin Zhi2qing,Zhang Hong2gang.A new database model of off2line handwritten Chinese character and its appli2 cation[J].Acta Eletronica Sinica,2000,28(5):115-116.(in Chinese)

[76]HCL2000手写汉字数据库系统[OL].http://www.pris.

https://www.360docs.net/doc/422260411.html,/down2/Software.asp?id=3.2008-8-16.

[77]李元祥,丁晓青,吴佑寿.一种基于字词结合的汉字识别

上下文处理新方法[J].计算机研究与发展,2002,39(7), 838-842.

Li Yuan2Xiang,Ding Xiao2Qing,Wu You2Shou.A novel method based on integrating characters with words for contex2 tual processing of Chinese character recognition[J].J ournal of Computer Research and Development,2002,39(7),838-

842.(in Chinese)

[78]董广宇,吕学强,王涛,等.基于N2gram语言模型的汉字

识别后处理研究[J].微计算机信息(测控自动化),2009, 25(4-1):276-278.

Dong Guang2yu,Lv Xue2qiang,Wang Tao,et al.Post2pro2 cessing study of Chinese character recognition based on n2 gram language model[J].Control&Automation,2009,25(4-

1):276-278.(in Chinese)

[79]龙 ,庄丽,朱小燕,等.手写中文地址识别后处理方法

的研究[J].中文信息学报,2006,20(6):69-74.

Long Chong,Zhuang Li,Zhu Xiao2yan.A post2processing ap2 proach for handwritten Chinese address recognition[J].J ournal of Chinese Information Processing,2006,20(6):69-74.(in Chinese)

[80]袁毓林.基于统计的语言处理模型的局限性[J].语言文

字应用,2004,17(2):99-108.

Yuan Yulin.The limitations of the statistically2based NLP models[J].Applied Linguistics,2004,17(2):99-108.(in Chinese)

[81]N2gram模型[OL].https://www.360docs.net/doc/422260411.html,/bytechen/blog/

item/94cf53def1d4ce5fcdbf1a40.html,2009-5-29. [82]自然语言处理中理性主义与经验主义的优缺点[OL].

https://www.360docs.net/doc/422260411.html,/rshare/feed.php?channel=126&y =2009&d=21&iid=14537,2009-5-31.

[83]计算语言学和自然语言信息处理研究和应用综述

[OL].https://www.360docs.net/doc/422260411.html,/yingyong/courses/nlpbase.htm, 2009-5-31.

[84]李元祥,刘长松,丁晓青.一种利用校对信息的汉字识别

自适应后处理方法[J].中文信息学报,2001,15(1):46-

52.

Li Yuan2xiang,Liu Chang2song,DING Xiao2qing.An adap2 tive post2processing method using proofreading information for Chinese character recognition[J].J ournal of Chinese Informa2 tion Processing,2001,15(1):46-52.(in Chinese)

作者简介

:

赵继印 男,1961年出生于吉林省九台市.

1993年9月获得吉林工业大学通信与电子系统

专业博士学位.现任吉林大学通信工程学院教

授、博士生导师.主要从事智能信息处理与传输

方面的教学和研究工作.

E2mail:zhaojiyin2000@163.

com

郑蕊蕊 女,1982年出生于河南省开封市.

吉林大学通信工程学院博士学位研究生.主要从

事图像处理与模式识别方面的研究工作.本文通

信作者.

E2mail:zhengruirui@https://www.360docs.net/doc/422260411.html,

514

第 2 期赵继印:脱机手写体汉字识别综述

印刷体汉字识别及其MATLAB实现

印刷体汉字的识别及其MATLAB实现 0.汉字识别研究的意义 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大大增加,一些专业单位所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意义。 1.印刷体汉字识别的研究 1.1印刷体汉字识别技术的发展历程 计算机技术的快速发展和普及,为文字识别技术应运而生提供了必备条件。加上人们对信息社会发展的要求越来越高,文字识别技术的快速发展可想而知。印刷体文字的识别可以说很早就成为人们的梦想。印刷体汉字的识别最早可以追溯到60年代,但都是西方国家进行的研究。我国对印刷体汉字识别的研究始于70年代末80年代初。同国外相比,我国的印刷体汉字识别研究起步较晚。从80年代开始,汉字ORC的研究开发一直受到国家重视,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步。 1.2印刷体汉字识别的原理分析及算法研究 汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法来实现。目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写体汉字识别。印刷体汉字识别从识别字体上可分为单体印刷体汉字识别与多体印刷体汉字识别。 印刷体汉字识别的流程如图1-1所示:

26个英语字母大小写标准手写体规范练习

26个英语字母大小写标准手写体规范练习

\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\> \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\>

脱机手写体汉字识别综述

脱机手写体汉字识别综述 赵继印1,郑蕊蕊2,吴宝春1,李 敏1 (1.大连民族学院机电信息工程学院,辽宁大连116600;2.吉林大学通信工程学院,吉林长春130025) 摘 要: 脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别 的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展. 关键词: 脱机手写体汉字识别;字符分割;特征提取;分类器设计;汉字识别数据库中图分类号: TP39114 文献标识码: A 文章编号: 037222112(2010)022******* A Review of Off 2Line Handwritten Chine se Character Recognition ZH AO Ji 2yin 1,ZHE NG Rui 2rui 2,W U Bao 2chun 1,LI Min 1 (1.College o f Electormechanical and Information Engineering ,Dalian Nationalities Univer sity ,Dalian ,Liaoning 116600,China ; 2.College o f Communication Engineering ,Jilin Univer sity ,Changchun ,Jilin 130025,China ) Abstract : Off 2line handwritten Chinese character recognition is one of the most challenging problems in pattern recognition field.This paper analyzed the latest developments of off 2line handwritten Chinese character recognition in recent years.Main meth 2ods of the key technologies such as Chinese characters segmentation ,feature extraction and classifier design were discussed.This pa 2per also introduced 3typical off 2line handwritten Chinese character recognition databases.Finally ,remain difficult issues and future trends of off 2line handwritten Chinese character recognition were proposed.This paper will guide researchers in this field and pro 2mote development of off 2line handwritten Chinese character recognition technology. K ey words : off 2line handwritten Chinese character Recognition ;characters segmentation ;feature extraction ;classifier design ;Chinese recognition database 1 引言 汉字识别是模式识别的一个重要分支,也是文字识 别领域最为困难的问题之一,它涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值[1].汉字识别技术可分为印刷体和手写体汉字识别两大类.手写体汉字识别又可分为联机(on 2line )和脱机(off 2line )手写体汉字识别.脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示. 清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品[2].目前,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%~99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求. 目前脱机手写体汉字识别仍处于实验室研究阶 段,成功的商业产品仍未发布[2~4].本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴. 2 手写汉字字体特点 从识别的角度分析,汉字具有如下4个特点.2.1 汉字类别多 汉字的个数很多,国家标准G B1803022000《信息交换用汉字编码字符集基本集的扩充》收录27484个汉字[5].汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题. 收稿日期:2009202216;修回日期:2009206213 基金项目:大连民族学院科研基金(N o.20086201);吉林省科技厅科技引导计划(N o.20090511)   第2期2010年2月 电 子 学 报 ACT A E LECTRONICA SINICA V ol.38 N o.2 Feb. 2010

2020年整理汉字相近字.doc

一些词汇识别模型认为,当一个单词呈现时,它的字形相近词也会被激活,从而对目标词识别产生影响。已有研究表明,字形相近词对目标词识别的影响存在语言上的差异。我们对汉字识别中字形相近字的作用进行了研究。REM(retrieving effect ively from memory)模型和提取模型(retrieval model)认为,词汇识别与再认记忆一样都是从记忆中提取信息。鉴于再认记忆和词汇识别关系密切,我们也研究了字形相近字在再认记忆的作用。本研究中,字形相近字的操作定义是形旁家族和声旁家族。形旁家族指在相同位置拥有同一形旁的所有汉字。声旁家族指在相同位置拥有同一声旁的所有汉字。一个家族中汉字的多少用家族大小来表示。围绕字形相近字在汉字认知和记忆中的作用,我们进行了三项研究。在研究一中,我们考察了形旁家族大小、声旁家族大小和高频同声旁字在不同难度词汇判断任务中对形声字识别的影响。结果发现,形旁家族大小、声旁家族大小和高频同声旁字对形声字识别有重要影响。形旁家族大和声旁家族大对词汇判断起促进作用,高频同声旁字对词汇判断起抑制作用。这些作用受词汇判断任务难度的影响。根据结果,我们对多重标准识别模型(The multiple read-outmod el)进行了修正。研究二使用命名实验范式,考察了声旁家族大小和高频同声旁字对形声字命名的影响。结果发现,在一致字和不一致字上存在声旁家族大小的抑制作用,声旁家族越大,命名就越慢,还发现有高频同音邻近字的目标字和有高频异音

邻近字的目标字在加工上存在差异。这说明,在字形表征水平和语音表征水平上均存在字形相近字的竞争。研究一和研究二结果表明,在词汇识别中,字形相近字之间既存在着相互激活,也存在着相互竞争。这证明了交互激活模型提出的词汇识别中的两个机制:词汇到亚词汇的相互激活机制和同一词汇水平上的相互竞争机制。研究三使用记得/知道再认范式以及迫选再认范式,考察了同声旁家族大小对再认记忆的影响。结果发现,声旁家族小的汉字具有记忆优势,声旁家族小的汉字比声旁家族大的汉字有更高击中率。声旁家族大的汉字击中率低是因为在编码或提取阶段受到了同声旁字形相近字的干扰。基于实验结果,我们对汉字教学和学习提出建议:要培养学生关于汉字字形的形旁家族意识和声旁家族意识,利用家族效应促进学生对汉字的学习和记忆,同时也要注意加强对形旁家族字和声旁家族字内部分化的教学,防止高频同形旁字或高频同声旁字的消极影响。 关键字:家族,高频,形相近,汉字识别,再认记忆,词汇识别,字形,词汇判断任务,抑制作用,影响,存在,识别模型,形声字,激活,表征水平,目标词,命名,竞争,机制,提取信息 字形相近字,形旁家族,声旁家族,汉字识别 :

联机手写数字识别实验报告

联机手写数字识别设计 一、设计论述 模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机器来实现人(及某些动物)对事物的学习、识别和判断能力,因而受到了很多科技领域研究人员的注意,成为人工智能研究的一个重要方面。 字符识别是模式识别的一个传统研究领域。从50年代开始,许多的研究者就在这一研究领域开展了广泛的探索,并为模式识别的发展产生了积极的影响。 字符识别一般可以分为两类:1.联机字符识别;2.光学字符识别(Optical Chara- cter Recognition,OCR)或称离线字符识别。在联机字符识别中,计算机能够通过与计算机相连的输入设备获得输入字符笔划的顺序、笔划的方向以及字符的形状,所以相对离线字符识别来说它更容易识别一些。 参照联机字符识别的原理,我们对手写数字的特征进行了深入的研究,同时作为一个初学者,我们本次考虑设计联机手写数字0——9识别,以达到加深对《模式识别》课程理论的了解和掌握的目的。 二、设计内容 本次设计,我们使用Visual C++ 6.0软件,在《模式识别》课程理论基础上,运用VC++语言设计联机手写数字识别系统。 三、设计原理 1、基于笔划及笔划特征分类的联机识别 联机手写汉字识别的方法可以分为两类:基于整字识别方法和基于笔划识别的方法。大多数联机识别都是采取笔划识别的方法,这是因为在联机识别过程中,汉字笔划是以点坐标形式一笔一划地输入到计算机的,同样,数字在联机输入过程中也是按照一笔一划输入的。 笔划的分类有很多,基于便于识别的原理,我们在这里仅介绍一种笔划的分类。我们把汉字看成是由把构成所有汉字的笔划分为两大类:即单向笔划和变向笔划。单向笔划表示笔划的走向保持在某一方向上,即人们通常所说的基本笔划,包括有横(笔划代码1)、竖(笔划代码2)、撇(笔划代码3)、捺(笔划代码4)。变向笔划的一种分类,规定变向笔划由三种笔划组成:(1)顺笔划(笔划代码5):笔划的变向是按照顺时针规律变化的;(2)逆笔划(笔划代码6):笔划的变向是按照逆时针规律变化的;(3)混合笔划(笔划代码7):笔划的变向既有顺时

文字识别算法

题目图像分割技术 学院计算机科学与技术班级计软1401 学生兰俊锋 学号20141214023

文字识别是智能识别技术中的一个重要技术。文字具有便于信息保存和传递的优点,使信息在时间和空间上得以迅速扩散。在人们的日常生活中,在机关事务处理、工业以及商业交往中,需要识别文字的数量如同天文数字,但利用计算机识别的文字量却很少。最近几年,随着计算机技术、数学和图像技术的发展,文字识别的应用领域逐步扩大,目前较为活跃的应用包括数字识别,文字识别等。文字识别是指用计算机字典、高速地识别现在介质(如纸张等)上的数字、英文符号或汉字。文字识别实际上就是解决文字的分类问题,一般通过特征及特征匹配的方法来进行处理。 本文将从算法、应用两方面介绍文字识别技术,本文介绍的文字识别应用有英文字母识别、车牌特殊文字识别、书写文字识别、特殊文字识别。 文字是人类相互交流信息的重要工具。社会发展进入信息时代,人们已不再停留在用自己的耳朵和眼睛去直接获得这些信息,而是使用计算机将文字自动的输入计算机,用计算机对他们进行处理,随时以各种方式满足人们的不同需要。因此,研究如何用计算机自动识别文字图像,解决文字信息自动输入计算机,并进行高速加工处理的问题已引起大家的广泛关注。 归一化算法一般作为一种图像的预处理技术,其目的是将采集到的原始图像转换成特征提取器所能接受的形式(灰度图像或二值图像),消除一些与类别无关的因素(噪声消除、归一化等) 。从理论上讲,经过归一化后的骨架应该是宽度为一的中心线,但这是不可能的。不同的硬件设备和不同的算法得出的结果可能不是唯一的,其结果与原图案的扭曲程度也是不~样的,扭曲程度尽量的小应该是归一化算法追求的目的之一。既然预处理是为后续的特征提取和分类器设计服务的,那么预处理方法的选择就应该有利于特征的提取,以使分类变得简单。 汽车牌照识别,在高速公路收费、电子警察和治安卡口等系统中有重要的应用价值。作为图像识别的典型问题,汽车牌照识别的研究有很长的历史,但因为实际路况的高度复杂性(如车速、光线、污染及变形等),目前的性能还不能令人满意。 1.文字识别过程概述 一般来说,文字图像的识别过程主要由以下 4 个部分组成:①正确地分割文字图像区域;②正确地分离单个文字;③正确识别单个文字;④正确地连接单个文字。其中①、④属于文字图像分析技术问题,③属于文字识别技术问题。关于②,由于仅从分割处理不能对其进行评价,通常采用文字识别地评价值来判断分离的正确性。单纯的文字识别是指经二值化处理后的单个文字识别。

自由手写体数字识别系统的设计与实现

自由手写体数字识别系统的设计和实现 摘要:本文论述并设计实现了一个脱机自由手写体数字识别系统。文中首先对待识别数字的预处理进行了介绍,包括二值化、平滑滤波、规范化、细化等图像处理方法;其次,探讨了如何提取数字字符的结构特征和笔划特征,并详细地描述了知识库的构造方法;最后采用了以知识库为基础的模板匹配识别方法,并以MATLAB作为编程工具实现了具有友好的图形用户界面的自由手写体数字识别系统。实验结果表明,本方法具有较高的识别率,并具有较好的抗噪性能。 关键词:手写体数字;预处理;模式识别;特征提取 Abstrct: This paper describes and designs a free handwritten number recognition system. Firstly, the pretreatment of the character to be recognized is introduced, including binarization, smoothing, normalization and thinning. Next, how to extract the structural features of the numbers is discussed, and we describe the constructing method of repository. Finally, we use the method of template matching, based on repository, to recognize the digital number. Matlab is used as a program tool to realize this free handwritten digital recognition system with friendly graphical user interface. The experimental results show that the rate of the recognition system is high, and the proposed method is robust to noise. Keywords: handwritten number; pretreatment;pattern recognition; feature extraction 1 引言 OCR(Optical Character Recognition)即光学字符识别技术,是通过扫描仪把印刷体或手写体文稿扫描成图像,然后识别成相应的计算机可直接处理的字符。OCR是模式识别的一个分支,按字体分类主要分为印刷体识别和手写体识别两大类。对于印刷体识别又可以分成单一字体单一字号和多种字体多种字号几类。而手写体识别又可分为受限手写体和不受限手写体两类;按识别方式可分为在线识别和脱机识别两类。 字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多使用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入使用,将产生巨大的社会和经济效益。 在整个OCR领域中,最为困难的就是脱机自由手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距离实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际使用推广,为手写数据的高速自动输入提供了一种解决方案。 本文首先介绍了自由手写体数字识别的基本原理,包括数字图像预处

英语26个字母标准手写体教程

英语26个字母标准手写体教程 英语的26个字母构成了奇妙的英语世界,对于英语初学者来说,学好26个字母是非常重要的,那么怎样学好26个字母呢?下面Tom教你如何书写26个字母! 1、斜度:每个字母都要稍向右倾斜约10°左右,斜度要一致。 . 如图:A F H的书写。 . . . 2、大写字母的书写规格是:上不顶天下立地。即笔画的上端稍离第一线,笔画的下端必须紧贴第三线,不许离线也不许出格。 . .

. 3、占中间格的小写字母有a、c、e、m、n、o、r、s、u、v、w、x、z共13个,它们笔画的上端必须紧贴第二线,下端必须紧贴第三线,不许离线也不许出格。. . .

. . 4、占第一、第二两格的小写字母共有5个:b、d、h、k、l,它们笔画的上端必须顶第一线,下端必须顶第三线,不许离线也不许出格。 . . . 5、小写字母i和t也占第一、第二两格。但t的上端在第一格中间,短横重合第二线;i的小圆点在第一格中间稍偏下处。 .

. . 6、占第二、第三两格的小写字母共有3个:g、q、y,它们的笔画的顶端要紧贴第二线,下端要紧贴第四线,不可离线也不可出格。 . . . . . 7、占第一、第二及第三格的小写字母共有3个:f、j、p。其中f的上端稍离第一线(和大写字母一样),下端紧贴第四线,短横重合第二线;j的小圆点与i 的小圆点位置相同,下面一笔的上端顶第二线,下端紧贴第四线;p的上端略高于第二线,约占第一格的三分之一,下端紧贴第四线。 .

. . 8、要注意书写的规范 . ①字母a、d、g、o、q等上端必须封闭,不可开口; . ②字母l、k的收笔处是圆钩,不可写成尖钩或竖弯钩;. ③字母r的收笔处不可多加一个弯。 . . .

脱机手写体汉字识别综述

脱机手写体汉字识别综述 摘要: 脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展. 关键词: 脱机手写体汉字识别;字符分割;特征提取;分类器设计; 1 引言 汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题之一,它涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值[1].汉字识别技术可分为印刷体和手写体汉字识别两大类.手写体汉字识别又可分为联机(on2line)和脱机(off2line)手写体汉字识别.脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示. 清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品[2].目前,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%~99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求.目前脱机手写体汉字识别仍处于实验室研究阶段,成功的商业产品仍未发布[2~4].本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴. 2 手写汉字字体特点 从识别的角度分析,汉字具有如下4个特点. 2.1 汉字类别多 汉字的个数很多,国家标准GB1803022000《信息交换用汉字编码字符集基本集的扩充》收录27484个汉字[5].汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题. 2.2 字体结构复杂 汉字基本笔画(stroke)分为:横、竖、撇、点、折[6].笔画的组合方式分为相离、相接和相交三种.特征结构笔画和相应笔画的组合方式在以笔画为特征的汉字识别中起到关键作用. 汉字的组合方式包括独体字和合体字.合体字又包括上下结构、左右结构、品字结构等多种结构.以部件(radical)为基础的手写体汉字识别中,需根据汉字的组合方式对已提取的部件进行重新组合. 2.3 字形变化多 手写体汉字字形总的来说可以分为:手写印刷体(hand2printfashionscripts)、行书(fluentscripts)和草书(cursivescripts).对于相同的字形又因不同人书写风格的差异造成手写汉字的变形.脱机手写汉字在日常生活中以行书为主.对于行书和草书等笔迹相连的情况,字符分割是识别的关键环节,如果出现分割错误,将影响后续识别结果的精度.

26个英文字母书写标准及练习(最新版)

班级姓名学号

班级姓名学号______ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________ ______________ ______________ ________________ _______________

26个英文字母标准手写版的书写及笔画-打印版

26个英文字母的书写笔画 1.书写笔顺 ⑴一笔完成的有: ①C,G,J,L,O,S,V,W,Z 9个大写字母 ②a,b,c,d,e,g,h,k,l,m,n,o,p,q,r,s,u,v,w,y,z 21个小写字母。 ⑵两笔完成的有: ①B,D,K,M,P,Q,R,T,U,X,Y等11个大写字母 ②f,i,j,t,x等5个小写字母。 ⑶三笔完成的有: A,E,F,H,I,N等6个大写字母。 2.书写规格 ⑴占上中两格的有: ①26个大写字母 ②b,d,h,i,k,l,t等7个小写字母。 ⑵占中间一格的有: a,c,e,m,n,o,r,s,u,v,w,x,z等13个小写字母。 ⑶占中下两格的有: g,q,y等3个写字母。 ⑷占上中下三格的有: f,j,p等3个小写字母。 注意: 1.斜体书写的字母都稍向右斜,斜度要一致。 2.大写字母都一样高,不顶第一线。 3.小写字母 b,d,h,k,l 的上端顶第一线 4.i 和 t 的上端都在第一格的中间 5.g,q,y的下端抵第四线 6.j 和 p 的上端在第一格的中间 7.f 要比 j,p要高,与大写字母同样高或稍低一些,它们的下端都抵第四线。 3.记忆方法 1、巧用歌谣区分字形: 遇到形近的字母,可以通过歌谣作强化记忆。 如d和b,“一把剪刀分两半,左下圆圈ddd,右下圆圈bbb”; u和n,“开口朝上uuu,开口朝下nnn”; m和n,“一道门儿是n,二道门儿是m”。 2、巧用歌谣记牢笔顺: “大写字母A, E, F, H,小写字母f和t,最后才把腰带系。”这句话的意思告诉孩子,字母有中横的,如“A, E, F, H, f, t”等,中间的那横像腰带,要最后写。 “小写字母i和j,出门再戴小帽子。”小写字母如“i, j”等,顶上那一点如同小帽子,也要最后写。 3、巧用熟悉的事物: 字母“E”像一座楼房,得先把外墙砌好,才能盖屋顶,所以要先写竖折,再写两横。 字母“F”象旗子。讲解:“要把F这面旗子插牢,得先把旗杆写正,先写一竖。”

26字母标准手写体

26个英文字母标准手写 ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ ______________ ______________ ________________ _______________ _______________ a b c d e f g h i g k l m n o p q r s t u v w x y z I love you,my dear friend! Treasured memories live and grow more preci ous with time. May those beautiful yesterdays

相关文档
最新文档