数字识别论文

数字识别论文
数字识别论文

保密类别编号

毕业论文

数字识别实现

学院计算机学院

专业软件工程

班级2班

姓名王茜

指导教师黄祥林

中国传媒大学

年月日

数字识别实现

王茜

摘要

在信息化飞速发展的时代,光学字符识别是一种重要的信息录入与信息转化的手段。数字识别作为光学字符识别中的一个分支,在车牌识别、邮政编码识别、统计报中等领域有着非常广泛的应用,用数字识别系统代替手工录入,可节约大量的人力和财力。因此,数字识别的研究有着重大的现实意义。

本文主要研究的即数字识别问题。首先,对数字图像的预处理工作进行了详细的介绍,其中包括:二值化、字符切分、归一化等。接着介绍了当前数字识别的几种常用方法。然后重点描述了用于印刷体数字识别的模板匹配法和基于整体特征的快速手写体数字识别法的原理,并给出了算法实现的过程。

实验结果证明,上述算法能取得较好的识别效果。

关键词:数字识别,图像预处理,模板匹配,整体特征

Xi. Wang

ABSTRACT

OCR (Optical Character Recognition) has become one of the important methods in gathering information and information transformation. Digit recognition has a promising business feature in many fields in society, for example the car license plate recognition、postcode recognition, the statistics of report forms, financial report forms. So the researching on the Digit recognition is one of the important things.

The paper describes the basic process and methods of numeral recognition system. First,

Keywords: Numeral recognition \

一、绪论

(一)问题的提出

光学字符识别(Optical Character Recognition),是属于图型识别的范畴。一个OCR识别系统,其目的是把图像中的内容转化为文本格式,便于计算机进行后续处理,使图像资料的储存量减少,同时也可节省因键盘输入的人力与时间。数字识别技术作为光学字符识别中的一个分支,也是现在非常受人们关注的问题。目前,数字识别技术主要分为印刷体数字识别技术和手写体数字识别技术。

印刷体数字识别在许多领域都有广泛的应用价值。如印刷字体的邮政编码识别系统,通过印刷体识别技术识别邮件上的邮政编码,帮助邮局做快速区域分信的作业;另外,身份证号码的识别、汽车牌照的识别、电话号码识别等[1]也是印刷体数字识别技术的应用领域,通过此技术的应用,可以节约大量的人力录入时间和财力。

手写体数字识别,是使计算机能够识别手写的数字,包括联机手写体数字识别和脱机手写体数字识别。联机手写数字的识别目前在实际生活中已经有了很多的应用,如在带有写字板的手机中,电话号码的写入,及各种商务伴侣中手写字符的录入等。脱机手写体数字识别是整个数字识别领域中最为困难的部分,但经过多年的研究,研究者们已经开始把各种理论方法实用化,为手写数据的高速自动录入提供了一种解决方案。近些年来,我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会促使这一事业的进展。因此,手写数字的识别研究有着重大的实现意义,一旦研究成功并投入使用,将产生巨大的社会和经济效益。[2]

在各种应用领域,由于相关软硬件技术性能的不断提升,新的方法理论不断涌现并应用,同时原有方法也不断被重新组合利用以达到更好的性能。因此,该问题的提出有很大的现实意义。

(二)论文的内容

本文主要研究的是数字识别技术。数字识别技术通过提取代表数字的特征,再根据提取的特征设计相应的分类器进行分类识别,得到正确的识别结果。根据印刷体和手写体的特点,本文分别提出了相应地特征提取技术和分类方法,主要内容包括一下几个方面:

1、介绍了数字识别技术的主要流程,对流程中的各个功能模块进行了系统的阐述,并对目前常用的方法进行了概括。

2、详细介绍了基于模板匹配的印刷体数字识别方法,对原理和算法实现都进行了细致的描述。

3、分析了手写数字的特点,提出一种基于整体特征的手写体数字快速识别方法,并详细阐述了其算法思想和实现方法。

(三)论文结构

根据论文的主要内容,安排论文的结构如下:

第一章绪论,介绍了数字识别问题的研究意义,论文的主要内容与结构安排。

第二章数字识别技术的概述,对各个功能模块进行详细的介绍。

第三章介绍基于模板匹配的印刷体数字识别技术的实现过程及实验结果。

第四章介绍基于整体特征的快速手写识别的原理和算法实现过程及实验结果。

第五章对整个研究工作做出总结回顾,并做出一些后续工作的难点和展望,以作为论文的结束语。

二、数字识别概述

数字识别,其目的是实现数字识别,首先要对数字图像进行预处理,然后提取数字的特征,最后进行分类识别,输出识别结果,基本流程图如图2.1所示:

字符图像输入图像预处

特征提取分类识别字符输出

2.1 计算机数字识别流程图

下面对数字识别中的每个功能模块进行详细的阐述:

(一)图像的输入

图像的输入就是图像数字化的过程。BMP文件格式是微软公司定义的一种广泛使用的图像文件格式,本文所讨论的数字识别的识别对象—字符点阵图像就是BMP文件格式。

(二)图像预处理

预处理作为后续工作的基础,是一个相当重要的部分,图像预处理工作的好坏直接影响到识别的效率。预处理一般包括二值化,行字切分、归一化和细化等。不同的识别方法,对预处理的项目和要求有所差别。

1.二值化

字符图像的二值化即把字符灰度图像处理成二值图像的过程。二值化的关键是要找到合适的阈值来区分对象和背景。灰度图像二值化能显著减小数据存储的容量,并能够降低后续处理的复杂度。根据阈值选取方法的不同,二值化方法主要分为三类:全局阈值法、局部阈值法和动态阈值法。

(1)全局阈值二值化

全局阈值二值化方法是根据图像的直方图或灰度空间分布确定一个阈值,并根据此阈值实现灰度图像到二值化图像的转化。典型的全局阈值法包括Ostu[13]方法、最大熵方法[14]等。全局阈值方法的优点在于算法简单,对目标和背景明显分离、直方图分布是双峰的图像效果良好,但对输入图像量化噪声或不均匀光照等情况抵抗力差,应用受到限制。

(2)局部阈值二值化

由像素()j i,的灰度值()j i f,和像素周围点的局部灰度特性确定阈值的方法称为局部阈值选择法。非均匀光照条件等情况虽然影响整体图像的灰度分布却不影响局部的图像性质。邻域的规定及邻域计算模板的选取都是决定算法效果的关键因素。局部阈值法也存在缺点和问题,如实现速度慢,不能保证字符笔画连通性,以及容易出现伪影现象等。

(3)动态阈值二值化

当阈值选择不仅取决于该像素阈值以及其周围像素的灰度值,而且还和该像素坐标位置有关时,称之为动态阈值选择法。由于充分考虑了每个像素邻域的特征,能更好的突出背景和目标的边界,使相距很近的两条线不会产生粘连现象,可以处理低质量甚至单峰值直方图图像。但是,这种方法的计算量很大,运算速度一般比较慢。

2.字符的切分

灰度图像经过二值化处理后,文字图像就变成了一些二值数字信号,它是一个整体,要想识别单个文字,就需要把每个文字从文字图像中分离出来,这就是所谓的切分。目前,已提出的字符切分方法有很多种,下面对几种比较常用的方法作简单的介绍:

(1)垂直投影法

垂直投影法是最常用的一种切分方法,利用字符间的空隙在直方图上呈现波谷状进行字符的切分,该方法速度快,实现简单。但简单的投影图法存在很大的缺陷,由于字符中经常存在的空洞或者字符的粘连,导致字符的垂直投影有多处波谷,因此在进行分割时难以依据波谷来确定字符的分割点。

(2)基于多行的垂直投影法

这种切分方法实际上是垂直投影法的变形形式。它通过多行文字在垂直扫描中进行多行信息点个数的统计,然后根据统计特征进行字符切分。这种方法可以有效的解决由于个别字符断裂产生的错误切分问题。但是这种方法主要用于字符排列很规整的文本图像,因而该种方法的局限性也很大。

(3)连通域法

连通域法是一种应用比较普遍的字符切分方法。字符的根本特征在于其连通性,无论字符如何倾斜或变形,其连通特征不会改变。如果把书写的笔画看成连通域,那么数字和英文字母都是由一个连通域构成。依据字符的这一特点,连通域方法可以实现字符的分割。

总体来说,上述的切分方法各有利弊,但没有一种通用的切分方法能够实现字符的精确切分。因此,我们可以考虑将几种方法结合起来,以提高切分的速度和准确度。

3.字符的归一化

字符图像的归一化包括位置,大小,旋转和倾斜归一化。下面主要介绍位置归一

化和大小归一化。

(1)位置归一化

位置归一化就是把数字图像都放到某一固定的位置,能够消除数字点阵位置上的

偏差,并能方便数字特征描述、提取。位置归一化后的数字图像图2.3所示(图中以

数字图像外围框的左上角作为归一化基准位置):

2.3 数字位置归一化前后图像

(2)大小归一化[12]

大小归一化是指对不同大小的数字图像作变换,使之成为同一尺寸大小的文字,

图像大小归一化方法分为两大类:线性归一化和非线性归一化。

1)线性归一化

线性归一化是将数字图像的笔画按比例线性放缩或缩小到规定尺寸的图像,仅与

原始数字图像和归一化后图像的大小有关系。

设()y x ,为原图像像素点坐标,()n m ,为归一化后的像素点坐标,则其变换关系如

式2-1所示: ???? ??n m =

??21a a ????21b b ???? ??y x + ???

? ??21c c (2-1) 其中系数矩阵 ??21a a ????21b b 决定了图像的比例和旋转变换尺度,???

? ??21c c 体现了图像的平移变换。如果数字图像已经经过位置归一化,且没有旋转,则上述公式可简化为式2-2:

???? ??n m = ?

?0x f ????y f 0????

??y x (2-2) 其结果如图2.4:

2.4 大小归一化前后图像

2)非线性归一化。

线性归一化的变换函数为线性函数,不能解决图像的变形问题,故提出了非线性归一化方法。非线性归一化是通过密度均衡的方法实现大小归一化,以消除输入模式的各种变形,这些方法大致分以下三种:点密度均衡法、线密度均衡法和笔画穿透数均衡法。

4.字符的细化

细化是指在保持原图像拓扑结构的情况下,尽可能快地抽取出单像素宽的骨架的过程。细化的必要性不仅仅只是压缩冗余信息的需要,同时还是对模式进行结构分析的需要。同时,细化能消除笔画边缘上的噪声点,更有利于字符特征的提取。

近年来,许多学者相继提出了许多细化算法,依据考虑问题的角度不同,图像细化的方法主要有基于边缘点删除法[67][68]和基于内点保留法[70]两种。传统的基于边缘点删除的细化算法在细化过程中,只对边缘点的可删除性进行判断并作相应处理,由于受跟踪顺序及所考察邻域的影响,易产生骨架的非对称性;基于内点保留的细化算法易使所获得的骨架大于一个像素。

(三)特征提取

图像特征是指图像场中可用作标志的属性,其中有些是视觉直接感受到的自然特征,如区域的亮度、彩色、纹理、或轮廓等,有些是需要通过变换或测量才能得到的人为特征,如各种变换频谱、直方图、矩等。图像特征提取就是从图像中提取出某些可能涉及到的高层语义信息的图像特征,以进行后续分析。

特征提取是识别系统中一个非常重要的步骤,因为它提取的特征是识别的依据。同一字符可以有不同的表现形式,表示这些形式的特征必须相同或非常相似,此即为特征的不变性,它主要体现在大小、旋转角度、倾斜度和拉伸程度等方面。良好的特征应具有以下五个特点:1、区分力强:对于属于不同类别的对象来说,它们的特征值应具有明显的差异;2、可靠性:同类的对象特征应比较接近;3、独立性:所用的各种特征之间应彼此不相关;4、易于提取:所用的特征要易于计算机的提取;5、数量少:识别系统的复杂度随着特征维数的增加迅速增长,所以特征不能太繁琐。

数字识别特征提取的方法大致可以分为基于结构的特征提取和基于统计的特征提取。

字符图形含有丰富的结构信息,可以设法提取含有这种信息的结构特征及其组字规律,作为识别字符的依据,这就是基于结构的特征提取。统计特征是提取待识别模

式的一组统计特征,作为识别的依据。

结构法比较直观,能较好反映事物的结构特性,但是结构基元的提取很不容易,各基元的关系也比较复杂,抗干扰性能也较差;统计法利用计算机来抽取特征,比较方便,抗干扰性能好;缺点是没有充分利用模式的结构特性。近多年来把这两种特征提取方法结合起来,提取出各种行之有效的字符特征,取得了很好的效果。

目前较常用的特征提取方法如下几种,一般来说,对于印刷体数字识别,只要用到其中一种方法即可,而手写体数字识别常常把这些方法组合起来使用。

1.关键背景点法

如图2.5所示,在数字字符的背景区域指定两个特殊点,称为关键背景点。从这两个关键背景点出发,分别向上、下、左、右四个方向引出一条射线,根据各射线穿越的字符笔画次数,求出字符四方向上的三值编码。从而,对10个数字,每个关键背景点周围的笔画分布情况可用表2.6所示编码表示出来[3][4]。

2.5 印刷体数字字符的关键背景点

2.6 背景特征点编码

因此,印刷体数字字符的识别变得非常容易,只要对输入的待识别字符经规范化处理后,然后根据关键背景点的数目以及其与笔划的相交次数编码情况,就可以判断出输入的字符。

2.13点特征提取法[5]

13点特征提取法,即提取能够代表数字的13个点作为数字的识别特征。具体提取方法为:

首先,把字符平均分成8份,统计每一份内黑色像素点的个数作为8个特征,如图2.7(a)所示;然后统计水平方向中间两列和竖直方向中间两列的黑色像素点的个数作为4个特征,如图2.7(a)、(b)所示;最后统计所有黑色像素点的个数作为第

13个特征。

(a) (b) (c)

2.7 13特征提取法

13特征提取法有着极好的适应性,但由于特征点的数目太少所以在样本训练时比较难收敛。

3.横线竖线特征法[1]

横线竖线特征法提取代表每个符号的形状特征,通过对数字的分析,抽取了数字的4种特征:横线特征,竖线特征,水平方向的过交点数,垂直方向的过交点数。具体提取方法如下:

(1)横线特征

首先定义比例hs,代表水平方向上黑点连续出现的像素个数与图像的宽度之比。当hs介于[]1,8.0时,认为这些连续黑点构成一条横线。根据横线在数字中的不同位置,我们又可将其分为上横线如5,7;下横线如1,2;其中4有一条横线比较特殊,可以将其区分出来。横线特征示例如图2.8所示:

2.8 横线特征示意图

(2)竖线特征

与横线特征的原理相同,定义比例hh,代表垂直方向上黑点连续出现的像素个数与图像的宽度之比。如果0.4≤hh≤1,则认为该数字中这些连续出现的黑点构成一条竖线。同理,由于数字中的竖线是有一定宽度的,因此在垂直扫描线顺序扫描时,相邻的几条竖线,将其视为同一条竖线。竖线特征示例如图2.9所示:

2.9 竖线特征示意图

(3)水平方向和垂直方向的过交点数

通常求单个水平方向或垂直方向上的过线交点数,我们很难区分开数字。因为在不同类型的印刷体数字中交点数有可能相等,因此我们需要将其两个特征结合起来使用。

用五条水平线和五条垂直线将其分别穿过数字图像来求得交点数进行比较判断,示意图如图2.10所示:

2.10 交点特征示意图

将数字的横线特征、竖线特征及交点特征结合起来,可以较好的识别数字。(四)分类识别

字符分类是基于提取到的特征的,提取了特定的特征就有相对应的分类方法。分类算法是识别的关键,分类算法的优劣也决定了识别系统的优劣。一般来说,在印刷体数字识别当中,有些特征值可以直接作为分类标准,而在手写数字的识别中,由于其字形的多变性,在提取完特征值后,还要用到比较复杂的分类器,将字符识别出来。其中几种常用的分类器设计方法如下:

1.基于支持向量机的分类器 [7]

利用支持向量机进行手写体数字识别的分类函数形式上类似于一个神经网络,其输出是若干中间结点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也称支持向量网络,如图2.11所示,对于m类模式分类问题,可以设计m个两类SVM分类器,每个分类器只区分一类模式与其它类模式,输入层是特征向量,中间层全部由支持向量机构成,具体数目由训练过程得到,样本输入后与中间层的每个支持向量进行内积运算,运算结果加权后输出到输出层,支持向量机的输出层只有一个节点,用来确定识别结果的类别属性。

2.11 支持向量机示意图

2.基于最小距离的分类器 [13]

根据模式识别的理论,如果一个模式近似于正态分布并且各个类别的先验概率和

协方差矩阵都相等的条件时,贝叶斯判别函数简化为式2-3:

()∑∑==-=-=m i n

j l j i j i l L k x K X X d 11

,,2 (2-3)

其中:X = ??????????????mm m m n n x x x x x x x x x ...........................212222111211, K l = ??????????????l mn l m l m l n l l n l l k k k k k k k k k ............................2122212111211,2l K X -为X 到i ω类

的均值向量l K 的欧氏距离。分类方法如式(2-4)所示:

若 ()(){}X di X d r min =,则()r X ωω= (2-4)

这种分类器称最小距离分类器。最小距离分类器构造简单,标准样本值作为各类

均值和各类别的代表,距离作为判别函数。这时的决策规则变为:如果X 到期望向量r

K 的欧氏距离最小,则将X 分到r ω类中。在应用时,先形成特征矢量,再计算出最小距

离的模板作为分类结果。

3.树分类器

所谓树分类器,就是根据树型分层理论,将未知数据归属于某一类的分类方法。

树分类器由一个根节点、若干非终节点和终结点构成。终结点又称叶子节点,每个叶

子节点代表一种模式类别。除了叶子节点外,每一节点都有多于一个的下级节点与之

相连。从根节点开始经过所有非终节点,直到所有的叶子节点,构成整个树分类器。

2.12 树分类器结构图

如图2.12即为一个n类问题的树分类器。首先,把集合{}

,1用特征f1

C,...,

2

C

Cn

将其分组成{}

2

Cr

+,然后,用特征f2进一步将

Cn

,1+

Cr,...

Cr

C

C,...,

2

,1和{}

{}

Cr,...

2

Cr

,1+

+分组,如此不断地进行分组处理,C,...,

Cr

C

2

Cn

,1分组,用特征f3将{}

直至集合中只有最后一个元素为止。

三、基于模板匹配的印刷体数字识别

印刷体数字结构简单,字符集小,所以对印刷体而言,只要切分正确,能有效地

克服断裂及粘连的影响,无论是使用统计模式的方法还是使用结构分析的方法,都能

获得满意的效果。

在机器识别事物的过程中,常需要把不同传感器或同一传感器在不同时间、不同

成像条件下对同一景物获取的两幅或多幅图像在空间上对准,或根据已知模式到另一

幅图中寻找相应的模式,这叫做匹配。本文所用的印刷体数字识别方法即为模板匹配

法。

模板匹配法是把待识字符与字典中每一个模板进行比较,找出相同像素最多的模

板代表字符作为识别结果。模板的设计是模板匹配的关键。最简单的模板设计是预先

扫描同一字符的若干二值图像,将这些图像的前景集合的交集作为模板。

(一)模板匹配的原理

设模板T 叠放在搜索图S 上平移,模板覆盖下的那块搜索图叫子图S i,j , i,j 为这

块子图的左上角点在S 图中的坐标,称为参考点,不难从图 3.1 中看出,i 和j 的取

值范围为

1< i , j < N-M+1

子图S i

模板T 与被搜索图A

现在可以比较T 和j i S ,的内容。若两者一致,则T 和S 之差为零。所以可以用下

列两种测度之一来衡量T 和j i S ,的相似程度:

D (i ,j )= []∑∑==-M m M n j i n m T n m S

112,),(),( (1)

或者:

D ( i ,j ) = ∑∑==-M m M n j i n m T n m S

11,),(),( (2)

对于二值图像,模板匹配法还可以简化,这时模板与对应子图中的对象点的差值为:

),(),(,n m T n m S j i - =

j i j i S T T S ,,- = ),(),(,n m T n m S j i ⊕ (3)

其中⊕表示异或处理(模2加),由此得: D ( i ,j ) = ∑∑==-M m M n j i n m T n m S 11

,),(),( = ∑∑==⊕M m M

n j i n m T n m S 11,),(),( (4)

这常被称为二进制Hamming 距离,D 越小,则子图同模板越相似。

(二)算法实现

通常来说,印刷体数字总是具有规范的形状,因此,使用模板匹配法对特定字形

印刷体数字进行识别,会得到较好的效果。

在模板匹配前,还需对字符图像进行预处理工作,其主要流程图如下:

3.2 模板匹配法识别数字流程图

1.图像的二值化

设计中是使用人工设置全局域值的方法实现图像的二值化,因为输入的字符图像的灰度直方图在背景点的灰度级和字符灰度级上会出现二个峰值,所以用全局阈值法能得到较好的效果。用GetByteatH函数可得到相应图像上的点的灰度值,若bmpfile.GetByteatH (i)[j]>164,就置bmpfile.GetByteatH (i)[j]=255(白色),反之,置bmpfile.GetByteatH (i)[j]=0 (黑色)。

2.图像的切分

设计中是使用基于单行的垂直投影法对二值图像进行切分。其主要步骤如下:(1)扫描二值图像,将图像每列的黑像素点数记录在数组gray[n]中,每行的黑像素点数记录在数组grayh[n]中。

(2)当gary[i]==0,说明该列没有黑点,从第0列开始,若当前列gray[i]=0,gray[i+1]!=0,说明i+1为字符最左边的像素位置,若当前列gray[i]!=0,gray[i+1]=0,说明i为字符最右边的像素位置,记录每个字符的左右位置,存放在结构体w[k].left和w[k].right中。

(3)同理,对grayh[n]操作,记录下单行字符的上下位置。

这样,把切分出的单个字符存放于单个的字符图像中,就完成了切分工作。

3.图像的归一化

设计中对切分出来的单个图像进行了位置归一化和大小归一化,其中大小归一化用到的是线性归一化方法。

在实验中,将每个字符的高都归一化为30像素,将字符的最左上点归一到坐标(0,0)。

4.模板匹配

(1)模板的生成

对于印刷体数字来说,模板的制作比较简单。基于印刷体数字形状固定的特点,只需将0~9的二值化图像对应点的值存放在二维数组m0[n][n]~m9[n][n]中,以0为例,其字符图像中黑像素点对应的m0[i][j]=1,白像素点对应的m0[i][j]=0,这样,就完成了模板的制作。在实验中,统一选规定模板的高度为30像素点。

(2)匹配

在实验中,我们对待匹配的字符图像已经进行了位置和大小的归一化,并采用人工设置整体阈值的方法二值化图像。因此,对已经分割出的待识字符,将其信息存放在二维数组t[n][n],同样的字符图像中的黑像素点其对应得t[i][j]=1,白像素点对应的t[i][j]=0。

设置数组S[10],计算存放待识字符图像信息的二维数组t[n][n]与存放0~9模板图像信息的m0[n][n]~m9[n][n]的相似度,相似度D(0,0)用上述公式(3)算出,相似度存放数组S[10]中,然后比较S[10]中每个元素的大小,数值最小的元素相似度最大,即为待识字符的值。如果,S[10]中最小的元素也大于一个给定的阈值,则我们认为在模板中没有与之相匹配的数字,输出匹配失败。

识别完成后,将识别结果保存在result.txt文件中。

(3)算法的复杂度

算法实现了对单行数字的识别,且每个数字字符的信息都存放于二维数组中,因此,算法的时间复杂度为()3n O。在空间上,需要10个二维数组存放0~9字符的模板信息,和一个二维数组存放待识别字符信息,因此,空间复杂度级数为()2n O。

(三)实验结果

在Windows XP 的平台下,用Visual C++ 6.0实现了基于模板匹配的印刷体数字识别。在毕业设计中所选用的数字字模为华文细黑体,对于不同大小的华文细黑体印刷数字,都要较好的识别结果,实验结果如下:

3.5待识别字符图像

3.7 识别结果

实验中任意选取了100个字符,其识别正确率为99.9%。

四、基于整体特征的快速手写体数字识别

手写数字识别在学科上属于模式识别和人工智能的范畴。在过去四十年中,人们想出了很多办法获取手写字符识别的关键特征,提出了许多识别方法和识别技巧。这些手段分两大类:全局分析和结构分析。对前者,我们可以用模板匹配,像素密度,矩,特征点,数学变换等技术。这类的特征常常和统计分类方法一起使用。对后者,多半需要从字符的轮廓或骨架上提取字符形状的基本特征,包括:圈,端点,节点,弧,突起,凹陷,笔画等等。这些结构特征往往与句法分类方法配合使用。

现有的数字字符识别方法都是提取字符的点特征,因此必须对字符细化,在细化的骨架上提取特征点;而本方法是提取字符的整体特征——凹凸特征,因此不需要细化过程。字符的凹凸特征是指字符含有圈和凹陷区的数目和位置信息。这些信息的提取过程如下所述。

(一)基于整体特征的快速手写体数字识别的原理[8][9]

1.寻找字符的圈

现有的数字字符识别系统中利用到的圈识别都是在细化骨架的基础上采用像素跟踪技术完成的,即深度优先搜索字符细化骨架中某像素所在的连通域,如果又能回到该像素,则找到圈。而在这里,圈的识别变得非常简单,如果字符有8背景场就说明字符含有圈,8背景场周围值为9的像素集合就构成圈,字符有多少个八背景场,就说明有多少个圈,其中数目小于一定阈值的8背景场为字符的无效圈。如图4.1

4.1 字符的背景场图

2.寻找字符的凹陷区

如果连接一个图像上任意两点的直线都属于该图像,那么该图像为凸图像;如果连接图像上两点的直线有部分不属于图像,那么称该图像为凹图像,其中直线中不属

论文中的图片添加标尺

用ImageJ软件给图片添加标尺 我们在论文中的插入的图片由于受到篇幅限制,一般直接拍摄的图片太大需要缩小处理,太小的标尺就会看不清,如图1中所示的红色标尺已经看不清了,此时我们需要在图中添加一个较大的标尺。如果已知图片拍摄的放大倍数,可以直接使用ImageJ(可点击直接下载)软件进行处理,如果不清楚已知放大倍数,在这里我又用了一个附加的软件小飞尺(可点击直接下载)。 图1 下面来具体介绍如添加标尺: 首先将需要添加标尺的图片打开(图2、3,这里的放大倍数已知) 图2

图3 如图4、图5,设置相关参数,原图片的实际尺寸及像素可用Photoshop中看出(图5左),像素为1280x960,大小是12.7x9.53cm。由于对拍摄实物进行了2000倍的放大,计算1280像素对应拍摄实物的实际大小是 (12.7X10000/2000μm)。然后计算单位长度对应的像素数,这里仅给出计算结果,即实物每μm对应的像素数为20.157,因此在图5右中设置值为20.157,其他选项设置如图所示,单击ok。 图4

图5 然后设置标尺格式,图6、图7。图7为最后的结果,最后将图片重新保存。 图6

图7 若不记得放大倍数的图片也可以,用类似的方法得到近似结果: 使用ImageJ加标尺的关键是确定单位长度对应的像素数,不清楚放大倍数可以用小飞尺软件来测量单位长度的像素数。如图8所示,测量了图片中微观尺寸20μm对应的像素数约为200,由于图片在这里的显示是50%,所以原始图片微观20μm对应的像素应该是400,即每μm对应约20个像素(和上面计算的20.157有误差)。结下了的步骤和已知放大倍数和宏观大小的方法相同。 图 8

基于知识库的手写体数字识别

HUNAN UNIVERSITY 课程模式识别 题目基于知识库的手写体数字识别学生姓名 学生学号

专业班级 学院名称 2016 年6 月25 日

基于知识库的手写体数字识别 1案例背景: 手写体数字识别是图像识别学科下的一个分支,是图像处理和模式识别研究领域的重要应用之一,并且具有很强的通用性。由于手写数字的随意性很大,如笔画粗细、字体大小、倾斜角度等因素都有可能直接影响到字符的识别准确率,所以手写体数字识别是一个很有挑战性的课题。在过去的数十年中,研究者们提出了许多识别方法,并取得了一定的成果。在大规模数据统计如例行年检、人口普查、财务、税务、邮件分拣等应用领域都有广阔的应用前景。 本案例实现了手写阿拉伯数字的识别过程,并对手写数字识别的基于统计的方法进行了简要介绍和分析。本文实现的手写字体识别程序具有手写数字图像读取、特征提取、数字模板特征库以及识别功能。 2 理论基础: 2-1手写字体识别方法: 手写体数字识别是一个跨学科的复杂问题,综合了图像处理、模式识别、机器学习等多个领域的知识,其识别过程一般包含图像预处理、特征提取、分类器的设定及其后处理等组成。处理流程如图2-1所示。

图2-1 手写体数子识别流程图 2-2 图像预处理 手写体数字识别的首要工作是图像预处理。在图像预处理过程中需要解决的主要问题有:定位、图像二值化、平滑化(去噪)H J、字符切分、规范化等。图像二值化是指将整个图像呈现出明显的黑白效果。待识别的手写体数字图像在扫描过程中,常会带来一些噪声,用不同的扫描分辨率得到的数字图像,其质量也各不相同,故而要先将这些干扰因素排除掉。另外,还需要正确分割整幅文档图像中的手写体数字,而分割后的数字大小、字体常各不相同,故还需进行归一化处理。 2-3 特征提取 特征提取的目的是从经过预处理后的数字图像中,提取出用以区分与其它数字类别的本质属性并数值化,形成特征矢量的过程。常见的手写体数字特征有:模板特征、统计特征、结构特征和变换特征。 2-4 分类器 不同的分类方式对应不同的分类器,可选的分类器有神经网络、支持向量机

浅析语音识别技术的难点及对策

浅析语音识别技术的难点及对策 在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。 语音识别技术 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。 语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT">60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning,DP)和线性预测分析(Linear Predict,LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。 70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding,LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠

模式识别论文

模式识别综述与应用 院系:计算机与通信工程学院 班级:电子信息10-01班 姓名: 学号:

模式识别综述与应用 摘要 模式识别就是研究用计算机实现人类的模式识别能力的一门学科,目的是利用计算机将对象进行分类。模式识别技术近年来得到了迅速的发展。 关键词 模式识别应用发展状况 前言 模式识别(Pattern Recognition)是人类的一项基本智能,在日常生活中,人们经常在进行“模式识别”。模式识别是一个多领域的交叉学科,它涉及人工智能、统计学、计算机科学、工程学、医学等众多的研究问题。随着2 0世纪4 0年代计算机的出现以及5 0年代人工智能的兴起,模式识别在2 0世纪6 0年代初迅速发展并成为一门新学科。 一、模式与模式识别的概念 广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)。 模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。 模式识别的研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家、神经生理学家的研究内容,属于认知科学的范畴;后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。 二、模式识别方法——统计模式识别方法和结构(句法)模式识别方法 把图像或图像系列分割为线条、边缘,结点,区域等并提供相应的特征,诸如灰度值、颜色、形状、纹理,深度等[5]。目的是要利用这些信息对模式进行分类或者对模式进行分析(描述)。分类是实现一个模式与

手写数字识别的实现

燕山大学 课程设计说明书 题目:手写数字识别的实现 学院(系):电气工程学院 年级专业: 08-自动化仪表 学号: 080103020179 学生姓名:付成超 指导教师:林洪彬程淑红 教师职称:讲师讲师 2010年 12 月 24 日

燕山大学课程设计(论文)任务书 院(系):电气工程学院基层教学单位:自动化仪表系 学号080103020179 学生姓名付成超专业(班级)自动化仪表设计题目手写数字识别实现 设 计技术参数 通过由数字构成的图像,自动实现几个不同数字的识别,设计识别方法,有较高的识别率 设计要求 设计图像中不同数字的识别方法,可以先从两个数字的识别开始,尽量实现多个不同数字的识别。设计中应该有自己的思想、设计体会 工作量1.分析图像特征,查阅相关资料,根据图像的特征提出解决问题的思路。2.查阅相关资料,学会MATLAB的编程方法 3.根据解决思路,编辑程序,根据调试结果,修改相应思路,找出最佳解决方案 工作计划周一分析图像,查阅各种资料,提出可行的解决方案。周二熟悉MATLAB软件,学会软件的简单编程方法。 周三根据可行的方法,编写程序,调试并修改方案。周四根据调试结果,选取最佳方案并完成设计论文。周五进一步完善设计论文,准备论文答辩。 参考资料[] MICHAEL SIPSER著,张立昂等译,《计算理论导引》,机械工业出版社,2000。 [2] 王晓龙,关毅等编,《计算机自然语言处理》,清华大学出版社,2005。 [3] R.C.Gonzales等著,阮秋崎等译,《数字图像处理》,电子工业出版社,2002。 [4] 王文杰等编,《人工智能原理》,人民邮电出版社,2003。 指导教师签字基层教学单位主任签字 2010年 12 月 24 日

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

模式识别论文

模式识别 课题:基于支持向量机人工神经网络的水质预测研究专业:电子信息工程

摘要 针对江水浊度序列宽频、非线性、非平稳的特点,将经验模态分解(EMD)和支持向量机(SVM)回归方法引入浊度预测领域,建立了基于EMD2SVM的浊度预测模型.通过EMD分解,将原始非平稳的浊度序列分解为若干固有模态分量(IMF),根据各IMF序列的特点,选择不同的参数对各IMF序列进行预测,最后合成原始序列的预测值.将该方法应用于实际浊度预测,并与径向基神经网络(RBF)预测及单独支持向量机回归预测结果进行比较,仿真结果表明该方法预测精度有明显提高.水质评价实际上是一个监测数据处理与状态估计、识别的过程,提出一种基于支持向量机的方法应用于水质评价,该方法依据决策二叉树多类分类的思想,构建了基于支持向量机的水环境质量状况识别与评价模型。以长江口的实际水质监测数据为例进行了实验分析,并与单因子方法及单个BP神经网络方法进行了比较分析。实验结果表明,运用该模型对长江口的实际水质监测数据进行的综合水质评价效果较好,且具有较高的实用价值。 关键词:浊度;预测;经验模态分解;支持向量;BP神经网络 一.概述 江水浊度受地表径流、温度以及人类活动等的影响,波动明显,在不同的月份有着很大的变化,表现出非平稳、非线性的特点.对其进行分析和预测,对于河流生态评价、航运安全以及以江河水为原水的饮用

水生产具有重要的指导意义.国内外在浊度序列分析方面的研究文献较少,通常都是综合考虑各种水质参数而对浊度进行预测,采用较多的是人工神经网络等非线性模型方法[1,2].这种模型结构复杂,要求原始数据丰富,在实际操作中实现较为困难.此外,对于江水浊度这一具有宽带频谱的小样本混沌时间序列,采用单一的预测方法,将会把原始浊度序列中的各种不同特征信息同质化,势必影响其预测精度.采用经验模态分解(Empirical Mode Decomposition,EMD)将浊度序列分解后分别预测,再进行合成将可能提高其预测精度.不同于小波变换,在对信号进行经验模态分解时不需要先验基底,每一个固有模态函数(In2trinsic Mode Function,IMF)包含的频率成分不仅与采样频率有关,并且还随着信号本身的变化而变化,具有自适应性,能够把局部时间内含有的多个模态的非线性、非平稳信号分解成若干个彼此间影响甚微的基本模态分量,这些分量具有不同的尺度,从而简化系统间特征信息的干涉或耦合[3].支持向量机(Support Vector Ma2chines,SVM)是建立在统计学习理论上的一种机器学习方法,是目前针对小样本统计估计和预测学习的较好方法[4],对统计学习理论的发展起到巨大推动作用并得到广泛应用[5~8].SVM有良好的泛化能力,并解决了模型选择与欠学习、过学习问题及非线性问题,避免了局部最优解,克服了“维数灾难”,且人为设定参数少,便于使用,已成功应用于许多分类、识别和回归问题[5,6,8].根据江水浊度序列的特点,结合EMD和SVM两种方法的不同功能,本文提出了基于EMD2SVM模型的预测方法,用于江水浊度的

论文中图标的插入方法

图表的插入及自动编号 第1章样式的建立 1.首先在文档中建立一个样式,样式名称为图表,样式属性如 图1-1修改样式 2.段落设置如

图 1-2段落设置 第2章添加图片 1.将需要在文档中添加的图复制到文档中,此时注意插入点的段落格式是1中设置的图表。 第3章引用图片 1.插入图表后,选中图表,点击插入——引用——题注,如图

2. 点击新建标签 3.点确定 4.勾选包含章节号

5.点确定 6.点确定,结果如图3-1

图3-1设置好的段落 7.此后在插入点后面键入图(表)的名称。如图3-1设置好的段落。还可以移动文本框的位置,改动文字的对齐方式、改变字体及字号等。再次插入图时题注的添加方法相同,不同的是不用新建标签了,直接选择就可以了。Word会自动按图在文档中出现的顺序进行编号。 第4章图的引用 1. 选中题注中的文字,“图1-1”,在“插入”菜单选“书签”,键入书签名(书签名可以任意起,但是为了在引用时不出错,应该给其命名,书签名要和引用的图对应),点“添加”。这样就把题注文字“图1-1”做成了一个书签。 2.在需要引用它的地方,将光标放在插入的地方(上一章中6.是“如”字的后面),在“插入”菜单选“交叉引用”,弹出对话框中引用类型选“书签”,“引用内容”为“书

签文字”,选择刚才键入的书签名后点“插入”,Word就将文字“图1-1”插入到光标所在的地方。在其他地方需要再次引用时直接插入相应书签的交叉引用就可以了,不用再做书签。 3.这样就可以实现图的自动编号,当在第一张图前再插入一张图后,Word会自动把第一张图的题注“图1-1”改为“图1-2”,文档中的“图1-1”也会自动变为“图1-2”。 4.表格编号的作法与图相同,唯一不同的是表格的题注在表格上方,且要求左对齐。 5.公式的编号略有不同,插入公式后,将公式单独放在一个段落,版式为“嵌入式”(Word默认),光标放在公式之后,不要(注意是“不要”)选中公式,在“插入”菜单选“题注”,由于没有选中项目,所以“位置”一项为灰色,新建标签“公式1-”,点击“插入”,Word就将标签文字和自动产生的序号插入到光标所在位置。在文档中引用公式编号的方法与图相同,此处不在赘述。 6.公式的编号要求在右边行末,具体的方法在“制表位的使用”一节详细说明。以在序号后键入说明,比如“形态学膨胀运算示例”,还可以移动文本框的位置,改动文字的对齐方式等。 7.当图表的前面插入图表或者图表所在的章节发生变化时,图(表、公式)的编号、文档中的引用有时不会自动更新,可以鼠标右击引用文字,在弹出的菜单中选“更新域”。关闭文档再打开Word会更新所有的域。或者全选然后右击,更新域。 第5章公式的引用 1.论文里的公式要求单独放在一个段落,公式居中;按章节进行编号,编号用小括号括起来放在右边行末。首先输入公式和编号,公式的版式选择“嵌入式”,编号用小括号括起来。然后把光标放在公式所在的段落里,点击页面左上角的制表位图标,切换到居中制表位,用鼠标在水平标尺上大约中间的位置点一下,这样就放置了一个居中制表位在点击的地方,如果位置不合适还可以用鼠标拖动进行调节。再把左上角的制表位图标切换到右对齐制表位,用放置居中制表位相同的方法放置一个右对齐制表位在行末。 2.设置好制表位后,把光标放在公式的前面,按一下Tab键,这样就在公式的前

手写数字识别系统的设计与实现

] 手写数字识别系统的设计与实现 摘要本手写数字识别系统是一个以VISUAL STUDIO C++ 为编译环境,使用MFC进行图形图像界面开发的系统。主要功能是通过在点击手写数字识别菜单下的绘制数字标签弹出的绘制数字窗口中完成数字的手写,在此窗口中可以进行数字的保存及清屏,然后通过文件菜单中的打开标签打开所绘制的数字,从而进行数字的预处理,其中包括灰度化及二值化处理,然后进行特征提取,最后实现数字的识别。本系统的界面设计友好,流程正确,功能也较为完善。实验结果表明,本系统具有较高的识别率。 关键词:绘制数字;预处理;特征提取;特征库;数字识别 / ;

目录 前言 (1) 概述 (2) 1 需求分析 (4) 功能需求分析 (4) , 性能需求分析 (4) 数据需求分析 (5) 相关软件介绍 (5) 2 手写数字识别系统的设计与基本原理 (6) 系统整体功能模块设计 (6) 手写数字识别系统的基本原理 (6) 数字图像的绘制 (6) 图像的预处理 (6) ) 图像的特征提取 (7) 特征库的建立 (8) 图像数字的识别 (8) 3 手写数字识别系统程序设计 (8) 数字图像的绘制 (8) 数字的特征提取 (15) 模板特征库的建立 (18) 数字的识别 (20) (

总结 (23) 致谢 (24) 参考文献 (25)

前言 自上世纪六十年代以来,计算机视觉与图像处理越来越受到人们的关注,并逐渐成为一门重要的学科领域。而作为它们的研究对象的数字图像,也因为它含有研究目标的丰富信息而成为越来越重要的研究对象。图像识别的目标是用计算机自动完成某些信息的处理,用来替代人工去处理图像分类及识别的任务。 手写数字识别是图像识别学科下的一个分支,是图像处理和模式识别领域研究的课题之一,由于其具有很强的实用性一直是多年来的研究热点。由于手写体数字的随意性很大,例如,笔画的粗细,字体的大小,倾斜等等都直接影响到字符的正确识别,所以手写体数字识别是一个很有挑战性的课题。在过去的数十年中,研究者们提出了许多的识别方法,取得了较大的成果。手写体数字识别实用性很强,在大规模数据统计(如例行年检,人口普查),财务,税务,邮件分拣等等应用领域中都有广阔的应用前景。本课题拟研究手写体数字识别的理论和方法,开发一个小型的手写体数字识别系统。 在研究手写体数字识别理论和方法的基础上,开发这样一个小型的手写体数字识别系统需要完成以下主要方面的研究与设计工作:手写数字绘制的问题、数字的预处理问题、特征提取问题、特征库的建立问题、数字识别问题。

(完整版)手写体数字识别系统设计毕业设计

石河子大学 信息科学与技术学院毕业论文 课题名称:手写体数字识别系统设计 学生姓名: 学号: 学院:信息科学与技术学院

专业年级:电子信息工程2007级指导教师: 职称: 完成日期:二○一一年六月十一日

手写体数字识别系统设计 学生: 指导教师: [摘要] 随着科学技术的迅速发展,在邮政编码、统计报表、财务报表、银行票据等处理大量字符信息录入的场合,手写数字识别系统的应用需求越来越强烈,如何将数字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问题。本文设计实现了一个基于Matlab软件的手写体数字识别系统,采用模块化设计方法,编写了摄像头输入、直接读取图片、写字板输入三个模块,利用摄像头等工具,将以文本形式存在的手写体数字输入进计算机,完成对手写体数字图片的采集,并设计了一种手写数字识别方法,对手写体数字图像进行预处理、结构特征提取、分类识别,最终以文本形式输出数字,从而实现手写体数字的识别。 [关键词] 预处理,结构特征提取,分类识别,手写体数字识别

Handwritten Digit Recognition System Students: Teacher:

Abstract:With the rapid development of science and technology, in zip code, statistics, reports, financial statements, Bank bills dealing with a large number of characters, such as information recorded occasions, handwritten digit recognition system of requirement has become stronger and stronger, how easily and quickly the number entered in the computer has become a key issue relates to the popularization of computer technology. This article design implementation has a based on Matlab software of handwriting body digital recognition system, used module of design method, write has camera entered, and directly read pictures, and write Board entered three a module, using camera, tools, will to text form exists of handwriting body digital entered into computer, completed on handwriting body digital pictures of collection, and design has a handwriting digital recognition method, on handwriting body digital image for pretreatment, and structure features extraction, and classification recognition, eventually to text form output digital, to implementation handwriting body digital of recognition. Key words: Pretreatment, structure feature extraction, classification and recognition, handwritten digit recognition.

语音识别论文

语音信号的分析与处理 摘要:本文针对语音信号时域、频域参数进行了系统详尽的分析,并在MATLAB环境下实现了基于DTW算法的特定人孤立词语音信号的识别。 关键词:语音信号;短时傅里叶;MFCC;动态时间规整 引言 语音信号参数分析是语音信号处理的前提和基础。语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只有通过语音信号的分析才能获得语音本质特性的参数,才能利用这些参数进行高效的语音通信,才能建立语音合成的语音库,也才可能建立用于语音识别的模板和知识库。此外,语音合成音质的好坏、语音识别率的高低,都取决于语音信号参数分析的准确性和精度。因此,语音信号参数分析是语音信号处理研究中一项非常有意义的工作[1]。 近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在手持式PDA、智能家电、工业现场控制等应用场合,语音识别技术则有更为广阔的发展前景[2]。 在特定人孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间规整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法[3]。 MATLAB是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言,它将数值分析、信号处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。本文就是在MA TLAB基础上来进行语音信号参数的分析与语音信号的识别的。 一、语音信号的分析 1参数分析 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可被假定为短时平稳的,即在10一20ms这样的时间段内,其频谱特性和某些物理特征参量可被近似地看作不变。这样,我们就可以采用平稳过程的分析处理方法来处理,一般而言语音信号处理的方法都是基于这种短时平稳的假设的。根据语音信号所分析参数的不同,语音信号参数分析可以分为时域、频域、倒谱域分析等[4]。本文仅涉及时域及频域参数分析。 2时域分析 进行语音信号最为直观的分析方法就是时域分析。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及语音的分割、预处理和大分类等。时域分析方法的特点是:第一,表示语音信号比较直观,物理意义明确;第二,实现起来比较简单,运算量少;第三,可以得到语音的一些重要参数;第四,采用示波器等通用设备,使用简单[5]。 2.1短时能量分析 短时能量分析用途:第一,可以区分清音段和浊音段,因为浊音时的短时平均能量值比清音时大得多;第二,可以用来区分声母与韵母的分界、无声与有声的分界、连字的分界等。如对于高信

模式识别结课论文

中国传媒大学2014~2015 学年第 1 学期 智能视频分析技术课程 题目人工智能在模式识别中的运用学生姓名刘晶晶 学号201110013208 班级数字媒体技术 学生所属学院信息工程学院 任课教师吕朝辉 教师所属学院信息工程学院 时间2014.11.27

人工智能在模式识别中的应用 摘要 计算机硬件的迅速发展,计算机应用领域的不断开拓,迫切地要求计算机能够更有效地感知诸如声音、文字、图像、温度、震动等人类赖以发展自身、改造环境所运用的信息资料。但就一般意义来说,目前一般计算机却无法直接感知它们,键盘、鼠标等外部设备,对于这样五花八门的外部世界显得无能为力。纵然电视摄像机、图文扫描仪、话筒等设备业已解决了上述非电信号的转换,并与计算机联机,但由于识别技术不高,而未能使计算机真正知道采录后的究竟是什么信息。计算机对外部世界感知能力的低下,成为开拓计算机应用的瓶颈,也与其高超的运算能力形成强烈的对比。于是,着眼于拓宽计算机的应用领域,提高其感知外部信息能力的学科——模式识别,便得到迅速发展。人工智能所研究的模式识别是指用计算机代替人类或帮助人类感知模式,是对人类感知外界功能的模拟,研究的是计算机模式识别系统,也就是使一个计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的感知能力。现将人工智能在模式识别方面的一些具体和最新的应用列举如下。 关键词:人工智能、模式识别、应用 (一)人工智能 人工智能(Anificial InteUigence)是相对人的自然智能而言,即用人工的方法和技术,模仿、延伸和扩展人的智能,实现某些“机器思维”。作为一门学科,人工智能研究智能行为的计算模型,研制具有感知、推理、学习、联想、决策等思维活动的计算系统,解决需要人类专家才能处理的复杂问题。人工智能就其本质而言,是对人的思维的信息过程的模拟。 (二)模式识别 模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读。这里,我们把环境与客体统称为“模式”,随着计算机技术的发展,人类有可能研究复杂的信息处理过程。用计算机实现模式(文字、声音、人物、物体等)的自动识别,是开发智能机器的一个最关键的突破口,也为人类认识自身智能提供线索。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要

sci论文写作插图一般要求

sci论文写作插图一般要求 sci论文写作的图表一般是重要研究结果的展示,插图质量的好坏往往也会直接影响着科研论文的发表。越来越多的研究者认识到了高质量的SCI论文插图对于sci论文写作发表的重要性。 以下将介绍一般SCI杂志对插图的各种要求,并说明如何在实际科研工作中做好原始数据和图片的采集工作,希望能从根本上帮助科研工作者减少这类问题的发生。 1. SCI论文插图一般要求: 1)尺寸符合杂志社的要求(宽度8.3~17.6厘米,高度一般不超过20厘米); 2)字体符合杂志社的要求(Times New Roman/Arial); 3)同类型文字的字号保持一致(Font size ≥8 pt,字体太小印刷版看不清楚); 4)线条粗细保持一致(Line weight; 0.25~1 pt); 5)准确、清楚、有条理的图片标记,插图上所有元素对位整齐; 6)插图内容应占据整张插图的90%以上空间,四周不能留太多空白区域; 7)颜色模式符合杂志社的要求(RGB, CMYK); 8)图片分辨率超过杂志社的最低要求(彩图≥300 dpi;线条图≥1000 dpi;灰度图≥600 dpi;组合图≥500 dpi); 9)格式符合规范(位图,TIFF,矢量图,PDF/EPS); 10)大小合适(每张插图最好不超过10M,推荐保存为TIFF格式并选择LZW无损压缩模式); 2.sci论文写作如何获取高质量的原始素材? 大家在收集原始数据和图片时,应特别注意获取高质量的原始文件,并长期保存。 (1)照相机拍摄类照片 拍摄时应注意如下要点:1)注意摄入参照物。如需比较拍摄物尺寸大小的,应辅以

基于神经网络的手写数字识别系统的设计与实现

中南大学 本科生毕业论文(设计) 题目基于神经网络的手写数字 识别系统的设计与实现

目录 摘要 (Ⅰ) ABSTRACT (Ⅱ) 第一章绪论 (1) 1.1手写体数字识别研究的发展及研究现状 (1) 1.2神经网络在手写体数字识别中的应用 (2) 1.3 论文结构简介 (3) 第二章手写体数字识别 (4) 2.1手写体数字识别的一般方法及难点 (4) 2.2 图像预处理概述 (5) 2.3 图像预处理的处理步骤 (5) 2.3.1 图像的平滑去噪 (5) 2.3.2 二值话处理 (6) 2.3.3 归一化 (7) 2.3.4 细化 (8) 2.4 小结 (9) 第三章特征提取 (10) 3.1 特征提取的概述 (10) 3.2 统计特征 (10) 3.3 结构特征 (11) 3.3.1 结构特征提取 (11) 3.3.2 笔划特征的提取 (11) 3.3.3 数字的特征向量说明 (12) 3.3 知识库的建立 (12) 第四章神经网络在数字识别中的应用 (14) 4.1 神经网络简介及其工作原理 (14) 4.1.1神经网络概述[14] (14) 4.1.2神经网络的工作原理 (14) 4.2神经网络的学习与训练[15] (15) 4.3 BP神经网络 (16) 4.3.1 BP算法 (16) 4.3.2 BP网络的一般学习算法 (16)

4.3.3 BP网络的设计 (18) 4.4 BP学习算法的局限性与对策 (20) 4.5 对BP算法的改进 (21) 第五章系统的实现与结果分析 (23) 5.1 软件开发平台 (23) 5.1.1 MATLAB简介 (23) 5.1.2 MATLAB的特点 (23) 5.1.3 使用MATLAB的优势 (23) 5.2 系统设计思路 (24) 5.3 系统流程图 (24) 5.4 MATLAB程序设计 (24) 5.5 实验数据及结果分析 (26) 结论 (27) 参考文献 (28) 致谢 (30) 附录 (31)

科技论文中统计图的不规范表达

94 山东建筑大学学报 2009年 科技论文中统计图的不规范表达 学报编辑部蔚莹 统计图由于其直观、形象的优点,被广泛应用于科技论文的写作中。在编辑过程中,笔者发现来稿中统计图的出错率非常高,而且由于图的不规范表达而导致传达错误的信息,甚至得出错误的结论。在来稿论文中,常见的统计图不规范表达情况有如下几类: 1 统计图类型选择不当 统计图种类不同,它们所能表达的数据资料类型不同,功能和适用场合也不同,最多见的错误类型有:条图与线图的混用,线图与散点图的混用等。 例1 对差错的辨析:氧化时间是一个连续性变量,此处选用条图,割断了时间点之间的联系,因此应改用线图。当希望表达彼此独立的几个分组中的数量大小时,应选用条图;当希望反映事物或现象随时间推移的变化趋势时,宜选用线图。 例2 缺氧反映器中COD去除率与温度的关系 从图中看出,各组试验中的缺氧池的温度和COD去除情况有较大的相关性,运用Excel的函数CORREL(array1,array2)分析它们的相关性,得到相关系数0.40317。 对差错的辨析: (1)该图选用的是一种复合折线图,根据正文判断,横轴表示组别,图中两条曲线只能分别表达各组实验中温度的变化趋势和C OD去除率的变化趋势,无法反映温度与C OD去除率的变化关系,更无法研究其相关性。图题与图的内容不符。 (2)横轴是组别,虽表现为数字类型,但实际上属于定性的数据资料,与数字的大小和前后顺序均无关系,所以图中折线反映的变化趋势是无意义的。 (3)通过绘制散点图发现,温度与去除率之间并不具相关性。因此相关性检验所得结论是不可靠的。 解决方案:从图题与正文文字看出,作者的原意是要研究缺氧反映器中COD去除率随温度的变化趋势并研究其相关性。因此应选用散点图。在研究2个在专业上可能有一定联系的变量的关系时,最佳的方法是先绘制散点图,直观地判断其是否存在相关性,再选用相应的检验方法进行定量的检验,这样才能得出可靠的结论。 2 统计图坐标轴上的刻度值违背数学原则统计图坐标轴上的刻度应符合数学原则,即对于算术尺度来说,数轴上等长的间隔应代表相等的数量,这样才能如实反映曲线的升降趋势。 例3 对差错的辨析:图中横坐标轴上等长的间隔代表的数量不等,每个间距依次代表了1.25、3.75、5、10和10,这样绘制的线图,其折线的倾斜程度是一种假象,歪曲了事实。类似的问题普遍存在,还表现为横轴坐标刻度为等差数列,或前后两组不等间隔的数据等等。 造成这种差错的原因很多,如作者在设计图表时的疏漏,对源数据没有进行必要的整理,没有合理地使用绘图软件等等。这里要特别提醒作者注意的是,在使用Excel绘图时,一定要注意“折线图”与“散点图”的选用。这两种图看起来非常相似,但它们表达和显示数据的方式却大不相同。其本质的区别是X轴上数据的性质不同。“折线图”的X轴为分类轴,在X轴上按数据录入的顺序等距显示数据;而“散点图”的X轴是数值轴,它按照数据大小顺序和设定的间距显示数据。因此“折线图”只适合在横轴原始数据为文本或等间距连续数据时使用,如果用它来处理不等距数据就常常会发生上述的错误。 3 图的绘制不符合科技期刊编辑规范的要求 (1)自明性差。统计图表最大的特点就是应该具有自明性,即不读正文,只看图表即能明白所表达的全部内容。最常见的问题是图题不准确或缺失、缺少纵横标目、坐标上没有刻度、缺少计量单位和没有必要的说明及图例。 (2)一致性差。这里所说的一致性主要指图与正文表述的一致性。常见的问题有:图与正文中研究内容不符,图题与图的内容不符,图与正文中使用的变量名称、单位、数据大小、以及曲线的个数、编号和字体不一致,图例与曲线线型不符等等 。以上问题都会影响到对图的理解。

语音识别(人机交互小论文)

计算机科学与信息工程学院《人机交互》课程 小论文 2014年6月

语音识别 1、语音识别的背景与意义 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。 随着现代科学的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式,而语言是人类最重要、最有效、最常用和最方便的通信形式。这就很容易让人想到能否用自然语言代替传统的人机交流方式(如键盘、鼠标等)。人机自然语音对话就意味着机器应具有听觉,能“听懂”人类的口头语言,这就是语音识别(Speech Recognition)的功能。语音识别是语音信号处理的重要研究方向之一,它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。它还涉及到生理学、心理学以及人的体态语言。 2、语音识别系统 语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。图1是基于模式匹配原理的自动语音识别系统原理框图。 (1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。 (2)特征提取模块:负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测(PLP)参数、动态差分参数和高阶信号谱类特征等[1]。其中,Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。 (3)训练阶段:用户输入若干次训练语音,经过预处理和特征提取后得到特征矢量参数,建立或修改训练语音的参考模式库。

科技论文中图片的处理软件介绍

科技论文中图片的软件介绍 有位论文审稿人在自己的博文中写道:“我审稿时看稿件的顺序是题目、摘要、图表、前言、参考文献和正文”。可见论文中图片的质量是非常重要的,处理一张图可 能会花费大量的时间,正如焦老师所说的,那位德国小伙子处理一张图用了一个月时间。图片质量的好坏一定程度上决定了论文能否被录用。本文将结合自己的经验,介 绍一下科技论文中图片的处理方法,有不合理和不完善的地方请大家指出,为大家能 写出更完美的论文提供一些参考。 1. 常用的图片处理软件 我在写论文时,常用的图片处理软件有SnagIt、Photoshop、画图、Visio等。 SnagIt是非常好用的一种抓图软件,它可以抓取活动的窗口,还可以抓取任意大小的 图片(这时以数字×数字的形式实时显示图片像素数)等等,并可以将图片保存成tif、bmp、jpg等格式。 Photoshop估计大家也都熟悉,图片处理界的老大,功能强大,但科技论文一般只用到它的部分功能,如调节图片大小、亮度、对比度、锐度、柔和度,或者擦除图元、颜色反相、以任意角度旋转图像等。 画图软件能干的活,Photoshop都能搞定,一些简单的任务,如调节图片尺寸、擦除 图元等,用它就可以了,再开Photoshop就有点牛刀杀鸡的感觉了。 Visio是微软的Office软件之一,与Word联合使用,效果很好,比用Word直接处理 图片强多了。 2. 科技杂志对论文图片的要求 会议文章对图片质量的要求比较低,一般投了后基本都没有修改的机会,而杂志文章 对图片质量的要求相当高,可能来回改几次才能满足要求。如果论文投稿前就达到了 较高的质量,相信修改时会轻松很多。比较牛的科技杂志对论文的基本要求是: (1) 表达清晰。图片中各元素都清楚无误,不能出现多个字母堆在一起难在分辨的情况。 (2) 分辨率要高。这里所说的分辨率不是我们拍照时所说的总像素数,它的单位 是dpi(dot per inch),它代表了一英寸中的点数,科技杂志的要求是600dpi,这也是打印机的最高分辨率。关于如何做到600dpi的分辨率,会在后面Visio的使用技巧中讲到。 (3) 所有 图中的字号、箭头大小要保持一致,粗线、细线分明,各种线型粗细一致。关于这点 也会在后面讲到。 (4) 横纵坐标的物理量要标清楚,一些关键的临界值,需要标明其 数值。

相关文档
最新文档