模式识别论文——手写数字识别的GMM与最近邻分类器系统比较

模式识别论文——手写数字识别的GMM与最近邻分类器系统比较
模式识别论文——手写数字识别的GMM与最近邻分类器系统比较

2015 年秋季季学期研究生课程考核

(读书报告、研究报告)

考核科目:模式识别

学生所在院(系):航天学院

学生所在学科:控制科学与工程

学生姓名:

学号:15S004001

学生类别:学术型

考核结果

阅卷人

《模式识别》课程结业报告

2015秋季学期

姓名:

学号:15S004001

专业:控制科学与工程

哈尔滨工业大学

2015年12月

两种手写数字识别系统的比较

摘要:手写体数字识别是图像识别中一个较成熟的研究课题,是模式识别领域最成功的应用之一。本论文旨在研究GMM分类器和最近邻分类器这两种基本算法在数字识别这一问题上的应用。实验直接调用MNIST中数据集,集中每个手写数字存储为一个784维的归一化后的二值特征向量,因此可以省略数字的预处理过程,包括灰度化及二值化处理等。直接进行特征提取即主成分分析,把重点放在不同样本总数下二种方法的识别正确率的比较,验证最近邻法的渐进错误率最优极限为贝叶斯错误率这一结论。

关键词:数字识别;特征提取;主成分分析;GMM分类器;最近邻分类器;渐进错误率

1课题的背景

自上世纪六十年代以来,计算机视觉与图像处理越来越受到人们的关注,并逐渐成为一门重要的学科领域。而作为它们的研究对象的数字图像,也因为它含有研究目标的丰富信息而成为越来越重要的研究对象。图像识别的目标是用计算机自动完成某些信息的处理,用来替代人工去处理图像分类及识别的任务。而模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机器来实现人及某些动物对事物的学习、识别和判断能力,因而受到了很多科技领域研究人员的注意,成为人工智能研究的一个重要方面。

1.1手写数字识别的发展

手写数字识别是图像识别学科下的一个分支,是图像处理和模式识别领域研究的课题之一,由于其具有很强的实用性一直是多年来的研究热点。由于手写体数字的随意性很大,例如,笔画的粗细,字体的大小,倾斜等等都直接影响到字符的正确识别。在过去的数十年中,研究者们提出了许多的识别方法,取得了较大的成果。按提取的数字特征的不同,可以将这些方法分为两类:基于结构特征的方法和基于统计特征的方法。统计特征通常包括点密度的测量、矩、特征区域

等;结构特征通常包括圆、端点、交叉点、笔划、轮廓等,一般来说,两类特征各有优势。例如,使用统计特征的分类器易于训练,而且对于使用统计特征的分类器,在给定的训练集上能够得到相对较高的识别率;而结构特征的主要优点之一是能描述字符的结构,在识别过程中能有效地结合几何和结构的知识,因此能够得到可靠性较高的识别结果。在此次的设计中使用的是统计特征。

在近几年国内外对手写数字识别系统的研究已经取得了进展,一些新的理论例如基于深度置信神经网络、基于小波技术、基于BP 神经网络以及支持向量机的研究应用在建立手写数字识别系统平台,并且在多数数据库中取得了较好的测试结果。但是目前仍然存在亟需深入研究解决的问题:一是识别的准确度需要达到较好的水平;二是识别的效率要达到很高的水平。数字识别输入的数据通常是很大的,而高精度与高速度是相互矛盾。这些难点存在的原因是:1) 数字的笔划简单,而且其笔划差别相对较小,字形相差不大,使得准确区分某些数字有一些困难;2) 数字虽然只有10 种,且笔划简单,但同一数字写法却千差万别,全世界的各个国家各个地区的人都在用,则其书写上带有区域特性,很难做出可以兼顾世界各种写法的、识别率极高的通用性数字识别系统。3)特征库的训练不够会导致识别率不高。

1.2 手写数字识别研究的意义

手写体数字识别实用性很强,在大规模数据统计(如例行年检,人口普查),财务,税务,邮件分拣等等应用领域中都有广阔的应用前景。手写体数字识别在特定的环境下,如邮政编码自动识别系统,税表和银行支票自动处理系统等一般情况都有应用。当涉及到数字识别时,人们往往要求识别器有很高的识别可靠性,特别是有关金额的数字识别时,如支票中填写的金额部分,更是如此。

针对这类问题的处理系统设计的关键环节之一就是设计出高可靠性和高识别率的手写体数字识别方法。这个领域取得了飞速的发展,部分是由于更好的学习算法,部分是由于更优良的训练集。美国国家科学学会(NIST)建立了一个包含60000个经过标注的数字的数据库,它已经成为对新的学习算法进行比较的性能测试标准。然而可以说还没有哪个手写体数字识别器达到完美的识别效果。

手写数字识别的研究不仅存在很大的应用价值,由于手写数字识别本身的特点,对它的研究也存在着重要的理论价值:

1) 阿拉伯数字作为唯一被世界各国通用的符号,所以对手写体数字识别的研究基本上与文化背景无关,各地的研究工作者可以说是基于同一平台开展工作的,有利于研究的比较和探讨。

2) 手写数字识别应用广泛,如税表系统,银行支票自动处理和邮政编码自动识别等。在以前,这些工作需要大量的手工录入,投入的人力物力都相对较多,而且劳动强度较大。为了适应无纸化办公的需要,大大提高工作效率,研究实现手写数字识别系统是必须要做的。

3) 由于数字类别只有0-9共10 个,比其他字符识别率较高,可将其用于验证新的理论或做深入的分析研究。许多机器学习和模式识别领域的新理论和算法都是先用手写数字识别进行检验,验证其理论的有效性,然后才会将其应用到更为复杂的领域当中。在这方面的典型例子就是人工神经网络和支持向量机。

4) 手写数字的识别方法很容易将其推广到其它一些相关的问题上,如对英文之类拼音文字的识别。事实上,有许多学者就是把数字和英文字母的识别放在一起研究的。

1.3数字识别系统的一般结构

小型的手写体数字识别系统需要完成以下主要方面的研究与设计工作:手写数字绘制的问题、数字的预处理问题、特征提取问题、特征库的建立问题、数字识别问题。在本实验中数字识别程序用Python来实现,程序实现了手写数字的输入、学习、识别过程。在最初的训练样本为数据集中全部60000个数据。在数字识别时分别使用了Bayes决策与最近邻决策两种方法。首先,通常小型手写数字识别系统应包含以下结果模块:

1)数字的获取与预处理

一般图像系统的预处理需要对图像进行灰度化处理、去噪处理等基本操作。在手写数字图像识别系统中,预处理是为了突出手写体数字的特征。图像的二值化处理就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果。在手写数字识别系统中,我们利用程序保存的坐标值就可以对生成一张二值化图像,相当于图像处理系统的二值化处理。这样内存中图像的数据区域的二维数组就跟手写区域的坐标相同,我们再取出手写区域的坐标值,将这些坐标值对应到图像图像数据区域中,并且将它的灰度值置为255(白色),将图像数据区域的其它坐标值下的灰度值置为0(黑色),这样我们就得到了一张手写数字的二值化图像。在数字图像处理中,二值图像占有非常重要的地位,图像的二值化有利于图像的进一步处理,使图像变得简单,而且数据量减小,能突显出感兴趣的目标的轮廓。

2)特征的提取

若直接把预处理后的数据作为输入量,进行分类计算时数据时数据量大,同时由于手写字体的多样化及图像本身和预处理过程中附带的某些干扰的影响,对

系统的容错能力要求较高。特征提取的目的就是从分析数字的拓扑结构入手,把

它的某些结构特征提取出来,使数字的位移、大小变化、字形畸形等干扰相对较小,也就是把那些反映数字特征的关键信息提供给系统,这样就等于间接地增加了系统的容错能力,而且经过特征提取后数据量也大大减少了,这样就提高了识别的效率。

因此得到手写数字的二值化图像后,通常要进行特征提取前需要对此图像的数据区域进行定位,在程序中我们遍历此二值化图像,找到手写数字区域的上、下、左、右边界,重新生成一张数字图片,利用新生成的数字图片分成N*N的区域,统计每个区域的目标像素个数和整个小区域像素个数,计算目标像素个数与

整个小区域像素的比值,得到N*N个特征值,作为这个手写数字的特征值。

手写数字识别的特征提取极大程度地影响着分类器的设计和性能,以及识别的效果和效率。为了保证所要求的分类识别的正确率和节省资源,希望依据最少的特征达到所要求的分类识别的正确率。在进行手写数字识别的过程中,特征提取应遵循以下原则:1特征应能尽量包含字符的有用信息;2特征的提取方法应简单而且提取快速:3各个特征之间的相关性应尽可能小;4特征数量尽可能少;5特征应有较好的抗干扰能力,同时要考虑到算法的实时性、快速性和准确性。

3)特征库的训练

我们需要训练一个特征库,作为识别的标准。我们可以手写一个数字提取出它的特征值,再输入这些手写数字,将数字与这些特征值相对应存储到特征库里面,在程序中将此输入数字与所有特征值相对应,作为模板库的一条记录,初始化模板库之后,就可以对手写数字进行识别,在识别的过程中我们不断的丰富模板库,如果手写数字识别成功则不需要将此数字存储到模板库中,如果识别失败就需要将此数字存储到模板库中,这样我们的模板库将越来越丰富,特征库越丰富,识别率越高。本实验我们简化了这一过程,直接使用MNIST数据库中储存样本信息。

4)数字识别

在手写数字识别中,即分类器准则的设计,是整个过程的核心。如本实验中使用的一个方法是最近邻法,其实质就是提取出手写数字的特征值,利用这些特征值与特征库的数字的特征值进行比对,它是将从待识别的图像提取的若干特征量与模板对应的特征量进行比较,计算图像和模板特征量之间的距离,用最小距离法判定所属类。模板匹配通常事先建立标准模板库。这里,模板库中的标准模板是数字样本的特征向量。找出待识别数字特征值与特征库里存储的特征值最接近的数字,作为识别结果。

5)性能需求分析

得到数字识别系统后,我们要对这一系统的识别效果做出评价,通常从以下三个方面入手:

1正确性:根据手写数字识别系统的设计流程,流程中的每个步骤在系统中都必须有所体现,以保证程序的正确性;

2精确性:根据手写数字识别系统的应用领域,该系统的识别结果必须有很

高的识别精度,这样才能真正的实现该系统的价值;

3效率性:根据该系统的应用领域可知,系统一旦投入应用需要处理大量的数据,所以对系统的处理速度也有很高的要求。

综上所述,数字识别系统的基本结构一般分为左右两部分,左半部分完成未知类别模式的分类;右半部分属于设计分类器的训练过程,利用样品进行训练,确定分类器的具体参数,完成分类器的设计。而分类决策在识别过程中起作用,对待识别的样品进行分类决策。

2理论基础

2.1贝叶斯分类理论

Bayes 方法是模式识别中的一种经典方法。用Bayes 方法进行分类时需要满足两个前提条件。其一是各类别的总体概率分布是已知的,也即类条件概率密度P(X|Wi)和先验概率P(Wi)是已知的;其二是决策类别数目已知。类条件概率密度函数P(X|Wi)是指在已知某类别Wi 的特征空间中,出现特征值X 的概率密度,也即在Wi 条件下出现X 的概率密度。其中对于待分类样本数字X ,Bayes 公式可以计算出该数字分属与各个类别的概率,称为后验概率。考察X 属于那个类的可能性最大,就把X 归于可能性最大的那个类。在Bayes 决策中,后验概率作为识别待分类样的类别依据。其公式可表示如下:

1

(|)()

(|)(|)()

i i i n

j

j

j P X P P X P X P ωωωωω==

其中,P(X|Wi)表示在X 出现的条件下,待识别对象为Wi 类的概率。 基于Bayes 决策的分类

在已知先验概率和类条件概率密度函数的情况下,可以用Bayes 方法进行分类。根据分类类别数目的不同,后验概率计算公式可以表示为不同的形式;下面分两种情况进行讨论: ? 两类情况:

待分类样本分别属于W1和W2类中的一类,在已知这两类的类条件概率密度P(X|W1)和P(X|W2),先验概率分别为P(W1)和P(W2)时,对于任一个待分类样本X,X 分属于两类的后验概率Bayes 公式可以改写为:

1122(|)()

(|)(|)()(|)()

i i i P X P P X P X P P X P ωωωωωωω=

+

其中i=1或2,针对两类情况,可以用后验概率进行判别;后验概率较大的对应的类别为该对象X 所属的类别。 ? 多类情况:

待分类样本可能的类别有N 类,分别为W1、W2、?、Wn ,各类的类的条件概率密度P(X|Wi)和先验概率P(Wi)已知。我们可以利用式子计算待分类样本对应的各个类的后验概率,后验概率最大的对应的类别为待分类样本的类别。

在本系统中将以使用者联机手写的数字作为测试样本。当手写一个数字时,就进行分类识别测试,得出其所属的类别,并可根据需要决定是否要学习该数字。在识别之前须首先知道先验概率和类条件概率密度函数,其中先验概率P(Wi )可以由训练样本集中的各类数字的个数和样本总数之比近似计算;类条件概率密度函数P(X|Wi )可以按照模板匹配等方法进行数字的区域划分再进行进一步计算得到。在得到先验概率和类条件概率密度函数以后,可以运用Bayes 公式进行后验概率P(Wi|X )的计算;由于手写数字0~9共有十类,该公式可以表示如下:

001199(|)()

(|)(|)()(|)()(|)()

i i i P X P P X P X P P X P P X P ωωωωωωωωω=

++

在这是i 为总类别数,分别为0、1、?、9等。紧接着就可以进行后验概率的比较,其中值最大的所对应的类别即为该手写数字的所属的类别,即:则x ∈Wi 。

2.2GMM 分类器

算法名称:Gaussian-mixture-model Classifier(GMM Classifier)

由于贝叶斯理论本身并未给出概率密度分布模型的估计方法,将贝叶斯分类理论中获取的概率密度分布参数看做多个高斯分布混合模型,可以得到GMM 算法,算法步骤如下:

输入:降维后的训练样本集{}1train

train n

r n r train i i X x ?==∈ ,其中r 是降维后的数据维数,train n 是训练样本个数;降维后的测试样本集{}1test

test

n r n r

test

i i X x ?==∈ ,其中r 是降维后的数据维数,test n 是测试样本个数;CTrain 是每个类别的训练样本数目;K 是预设的每个类别最大的组件数目。

步骤一 估算训练数据的概率密度函数。 采用BIC 准则来估算最优K 值。

步骤二 计算测试样本集中每个样本的归属类别。

计算每个测试样本对每个类别的概率密度函数值,取最大的函数值类别作为此测试样本的归属类别。

输出: 测试样本集的概率密度值和样本所属类别。

一个GMM 结构可以看作两个或更多常规高斯分布模型的混合。在一个典型的GMM 分布中,{}1n

d i i X x ==∈ 的概率密度函数被写为K 个高斯分布的和: ()()1,,K

k k k k p x x αμ==N ∑∑

其中:

()()

()()11

2

2

1

1,,exp 22T k k k k k d

k

x x x μμμπ-??

N ∑=

?--∑-????

在上式中,K 是混合的高斯分布的个数,k α是第k 个高斯分布的权重因子,表示每个高斯分量在总体中所占的比例,并且11K

k k α==∑,k μ是模型的期望,通常用

样本均值来代替,k ∑是模型方差,通常用样本协方差矩阵来代替。最后这三个量能用一个参数向量{},,k k k αμΘ=∑来表示。

当组成每个GMM 的高斯分布最优数目K 确定后,混合模型的参数能通过期

望最大化算法(EM ,一种迭代优化策略)来估计。EM 算法能找到参数的一个

(局部)最大似然或最大后验概率估计。给定一个数据集{}01

l

n

i i x =X =,i x 是第k 个高斯分布子集 k ?中的数据向量,l n 是k ?中的样本数目,由此产生的完整的数据对数似然函数是:

()()()01,|,log ,,k

K

i k i k k k i L p k x x ?αμ=∈ΘX =ΘN ∑????∑∑

其中()|,i p k x Θ是GMM 中第k 个分布的后验概率,可以写为:

()()

()

1

,,|,,,k i k k i K

k

i

k

k

k x p k x x αμαμ=N ∑Θ=

N ∑∑

每次迭代中,通过求最大似然函数()0,L ΘX 式来求得参数Θ(M 步骤)。参

数集随后作为期望参数值更新式(2-30)来进行下一次迭代(E 步骤),其中更新参数为:

()1

1|,l

n k

i

i l

p k x n α==Θ∑

()()

1

1

|,|,l

l

n i

i

i k

n i

i p k x x

p k x μ==Θ=Θ∑∑

()()()

()

1

1

|,|,l

l

n T

i

k

k

i k

n i

i p k x x x p k x μμ==Θ--∑=Θ∑∑

直到式中完整的数据对数似然函数的连续的数值相对差异达到某些预设的收敛阈值时停止迭代。

预估一个合适的组件/模型数值K 对于分类任务中成功学习和使用GMM 算法很重要。信息准则(AIC )是一个常用的用来估计最优K 值的度量。对于参数向量Θ,AIC 准则表述为如下的似然函数: ()()max 02,2AIC L K Θ=-ΘX +

其中()max 0,L ΘX 是依据每个模型的最大对数似然函数,K 是估算的高斯分布

的数目。首选的模型是有最小()AIC Θ数值的模型。 贝叶斯信息准则(BIC )是另一个常用来估算最优K 值的度量,表示为:

()()max 02,log()BIC L K n Θ=-ΘX +

其中n 是样本总数,据悉模式识别领域的具体应用中,AIC 会过度估计K 值,而BIC 由于会得到一个小的多的K 值而更有效。因此采用BIC 作为GMM 分类的度量。

2.3主成分分析(PCA )

算法名称:Principal Component Analysis (PCA )

本实验为了解决针对贝叶斯分类器中特征矩阵奇异不可求逆,引入PCA 降维算法。PCA 是基于K-L 变换思想的特征提取方法,它的出发点是从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,且相互之间是极大不相关的。 PCA 的目标是使新特征的方差达到极大值,可用于线性分类,最大化类间离散度。 方法具体可描述为,对于一幅N N ?个像素组成的图像,可以将其看作一个特征为2N 维向量的样本。设训练样本集有C 类样本,每类样本的个数为N ,则所有样本个数为M C N =?,样本集表示为{

}

2

,1,...,N i x R i M ∈=。 样本集的平均向量ψ表示为,

1

1

M

i i x M

ψ==

每个样本减去平均向量,得到差值i d ,

,1,...,i i d x i M ψ=-=

协方差矩阵∑(也称总体散布矩阵)表示为,

1

11

M

T T i i i d d XX M

M

=∑=

=

其中212[,,...,]M N M X d d d ?=,因为矩阵T XX 的维度为22N N ?,因此考虑另一

个矩阵T X X ,它的维度为M M ?,通常。矩阵T X X 的特征方程为,

()T i i i X X νλν=

两边同时左乘X ,得,

()()()T i i i XX X X νλν=

记i i u X ν=,则上式可写成

()T i i i X X u u λ=

因此,M M ?维的矩阵T X X 和22N N ?维矩阵T XX 具有相同的特征值,特征

向量具有如下关系,

i i u X ν=

两规范化特征向量的关系为,

,1,...,i i u X i M ν=

=

将特征值从大到小排列12M λλλ≥≥???≥,选取前p 个特征值,满足一定的贡

献率α,即

1

1p

i

i p M

i

i r λαλ

===

≥∑∑

则这p 个特征值在这些新的规范正交基(1,...,)i u i p =上的投影构成了对原图

像的降维表示,所在空间为特征脸空间。根据K-L 变换的性质,这种降维表示是所有相同维数的线性表示中误差最小的。 特征空间可用矩阵w 表示,其列向量为规范正交基(1,...,)i u i p =,即,

12[,,...,]p w u u u =

表示的差值i d 在其上投影,投影系数可表示为,

,1,...,T i i w d i M Ω==

而特征向量可通过下式重构出原始图像,

,1,...,i i w i M ψΓ=Ω+=

总得来说,PCA 算法通过利用规范正交基的线性组合描述、表达和逼近图像,因此可以进行图片的识别和重建。PCA 为了获得数目和计算量最小的主成分需要从信息压缩最大方向寻求图像的低维信息表达,所以对应的 K-L 变换的信息熵最小,获得的识别空间也是对原图像的最优逼近。且归一化后的特征向量的范围被限制在[0,1]之间,简化了运算过程,提高了运算速度。采用主成分分析法对繁杂的特征向量进行提取,以降低分类代价,提高分类性能。

然而,PCA 具有两点不足:其一,将二维图像一维向量化,丢失了图像中像素的邻域相关信息;其二,图像中所有像素点的权重相同,没有突出重要信息

PCA 算法具体步骤如下:

(1)对各维数据进行无量纲化;

设x ,1,2,,,ij X i N ∈= 那么得到ij j ij

j

x x y Y s =∈

其中1

1

M

j kj k

x x M

==

是各维特征向量的均值,j S =

是各

维特征向量的标准差。

(2)计算Y 的协方差矩阵S: 121

1

,,,N

T

i ik M k

y y Y y y y N

=??=

?=??

11,1,,1N l ???=??

1

[][]T

S Y Yl Y Yl N

=

-?-

(3)解特征值和特征向量

根据特征方程()0I S U λ-= 求解S 的特征值λ和特征向量u 。而后将λ从大到小排列:12N λλλ≥≥≥ ,并找到与之对应的j u :

12[,,,],1,2,,j j j Nj u u u u j N ==

(4)计算主成分

1122j i j i j iN Nj Z y u y u y u =+++

这里1,2,,j p N =≤

(5)选取主成分

P 的取值原则要让主成分满足最大程度包含原信息量最小值的条件。这里依

据主成分贡献率1

m

j j i i I αλλ==∑ 选取主成分。

2.4最近邻分类器

算法名称:Nearest Neighbor Classification

最近邻法是将分段线性分类器得思想推广,把每一个训练样本作为一个子类模板,利用两两样本间的分类面构造出非线性分类面,对于一个新样本,逐一与已知样本比较,找出距离新样本最近的已知样本类别作为决策,即最近邻法。可以表述为

1122{(,),(,),,(,)}N N N S x x x θθθ=

i x 为样本特征向量,i θ为对应样本类别,设共有c 个类别,定义两个样本间的距离度量(,)i j i j x x x x δ=-,通常用欧式距离计算即可。

则判别函数可以写作

()min (,),1,,j i

i j x g x x x i c ωδ∈==

决策规则可以写作

1()min ()k i k i c

g x g x x ω==?∈

在已知样本足够多时,这种直观的最近邻决策可以取得较好的效果,理论上最近邻法的错误率结果如下:设N 个样本下最近邻法平均错误率为

()(|,')('|)'(N N P e P e

x x p x x dx p x dx =?? 定义最近邻法渐进错误率P 为当N 趋于无穷时平均错误率的极限,则可以证明

**(2*)1

c

P P P P c ≤≤-- P*为理论最优错误率,即贝叶斯错误率。由此可知,最近邻法的渐进错误率最坏不会超出两倍贝叶斯错误率,当样本足够多时,最优可以达到贝叶斯错误率,如图2.4所示。

图2.4最近邻法与贝叶斯法理论错误率关系

2.5K 最近邻分类器

算法名称:k-Nearest Neighbor Classification (kNN )

k 最近邻(k-Nearest Neighbor ,kNN )分类器算法是一种在理论上很成熟的分类算法,并且是最简单机器学习算法之一。K 最近邻法相当于是最近邻法的推广,后者只是K=1的特例。算法的思想是:已知一个训练样本集{}1n

d i i X x ==∈ ,并且训练样本集中的每个样本的类别是确定的。对于给定的待分类样本x ,计算它和训练样本集中所有样本的距离度量,常见的距离度量包括欧氏距离,皮尔逊系数,余弦函数。根据距离度量找出样本x 的k 个最近的训练样本,然后根据这

k 个训练样本的所属类别来确定x 的类别,其中待分类样本类别由这k 个训练样

本中类别最多的来确定。如图2.5所示,相比较最近邻法,K 近邻法的正确率会显著提高,但仍以贝叶斯错误率为渐进错误率的极限。

图2.5 K 近邻法与贝叶斯法理论错误率关系

K 近邻算法步骤如下:

输入:训练样本集Train N d X ?∈ 和测试样本集Test M d X ?∈ ,其中N 为训练样本个数,M 为测试样本个数,d 为样本的维数,N Train C ∈ 为每个训练样本所属样本类别的集合, 12[c ,c ,,c ]Train N C = ,近邻域k 。

步骤一 计算测试样本集中每一个样本与所有训练样本的距离度量。

计算测试样本集Test X 中的每一个样本与所有训练样本的欧氏距离,寻找与测

试样本距离最小的k 个训练样本,并记录这k 个训练样本所属的类别

12[c ,c ,,c ]Test k k C = 。

步骤二 统计k 个训练样本中每个类别的样本出现的频率。

统计12[c ,c ,,c ]Test

k k C = 中出现频率最高的类别,

并将这个类别作为测试样本的预测类别。

输出:测试样本集Test

X所属的类别向量。

3实验设计

3.1MNIST数据样本集介绍

MNIST数据集是一个真实世界中采集的手写数字图像数据集,它由NIST会议收集并持有,读者可到MNIST主页免费获取该数据集。这个数据集一共含有4个文件,分别存储训练数据、训练标签、测试数据、测试标签。文件以二进制文件形式存储,不过我们可以很容易编写一段小代码将其转换成图像。训练集共含有60000个样本,测试集含有10000个样本,这些样本收集自500位不同的人的手写字体。

MNIST是手写数字的数据库,其中包含有60000个样本的训练样本集以及10000个样本的测试样本集。这是从NIST这个更大的数据库中截取的。这些数据已经进行过归一化,存储在一个尺寸固定图像的中心。

NIST中原来的黑色和白色(双层)图像尺寸归一化以存储于一个20X20像素盒而保持纵横比。所得到的图像包含灰度级的归一化算法所使用的抗混叠的技术。图像被集中在一个28x28的图像中。并通过计算像素的质量中心,将图像以位置中心点置于28x28场中心。对于基于模板的方法,图像预处理时,以像素盒边界为中心识别的正确率要高于以数字图像自身重心为中心的结果。

手写体数字的二进制图像:这其中的原因在于事实SD-3的数据集是在人口普查局职工中收集的,而SD-1收集自高中生。从学习实验中得出合理的结论,这就要求结果是独立的训练集的选择和测试的完整样本集。因此,有必要通过混合NIST的数据集建立一个新的数据库。训练集和测试集中的样本各有一半来自SD-3,一半来自SD-1。参与数据采集的书写人一共约500人。

图3-1 MNIST数据集部分数据样本

每个数据样本是28 × 28像素的灰度图像,由于引入了抗锯齿效果,所以图像数值范围是0 ~255而不是二值图像。图像已经经过预处理,因此图像会集中在中心20 × 20的区域内,此外,图像的中心点与像素点的重心重合,所以如果要使用模板匹配的方法(比如k近邻,GMM,SVM等)进行分类的话对图像再进行一些预处理使得数字的几何中心与图像中心重合会改善你的算法性能。如图3-1是MNIST数据集中的一小部分样本的展示,原始的数据应该是黑底白字的,为了美观,我们将其颜色反转并加上周围的边框。

数据集链接:MNIST(https://www.360docs.net/doc/ca5227636.html,/exdb/mnist/)

3.2实验流程介绍

首先,读入MNIST的SD-1、SD-3中含有的60000个含标签的训练样本,样本存储类型为60000*784矩阵模式,即每个样本对应28*28为二值灰度矩阵,再存为784维特征向量,一种做GMM分类处理,先得到对应的10个高斯混合分布模型,再根据PCA算法首先将样本降为20维向量,最后利用贝叶斯最小错误率决策理论,对数据集MNIST中的10000个手写数据测试样本集进行分类,分为0~9十个类别;另一种用最近邻分类器处理,首先直接把训练所有样本集都存储为模板,然后根据最近邻决策规则直接对测试样本集进行判别。改变训练样本数目,从1000直到60000,记录整个过程的识别率变化,比较并绘出曲线。最后输出不同方法识别的正确个数以及识别正确率,对两种方法的正确率,精确性及辨识效率进行比较。实验流程图如图3.2所示。

图3.2实验流程图

4 实验结果

实验程序在Python环境运行结果如下图4.1所示,最终记录的识别率如表4.1所示,将辨识率绘制成折线图如图4.2所示:

单纯就两种算法的识别正确率直观来说,可以看出最近邻法的识别正确率随样本数目升高的明显更快,最终正确率也要高于GMM,这表面上与最近邻法的渐进错误率最优极限为贝叶斯错误率这一结论是相悖的。其实际原因主要有二:一是贝叶斯错误率本身为理论最优错误率,而真实情况中由于在概率密度函数估计环节的近似,理论错误率实际上是达不到的;

二是由于本实验中特征矩阵奇异不可求逆,我们首先对样本进行了PCA降维操作,由原来的784维降至20维,虽然大大提高了辨识效率,确是基于降低了GMM辨识精度的基础上,导致最终最近邻法辨识正确率要高于GMM。但是从中却可以看出贝叶斯理论本身对样本数量的依赖不像最近邻法那么高,在很大

的训练样本数范围内识别率都不会有过大的变化。

图4.1Python环境下程序最终输出结果

图4.2两种方法辨识正确率折线图

从识别的效率角度,贝叶斯方法即GMM整个辨识过程的时间均在二十秒至四十秒之间,前后差异不大,而最近邻方法的辨识时间从1000个测试样本时的一分钟指数增长为60000个样本时对应的一个半小时,可以看出GMM的识别速度较快,但识别正确率提升较低;最近邻法的识别正确率虽然有显著提升,但耗费时间过长。同时在训练样本较少时,二者时间虽然相差不大,但贝叶斯方法能保证的基础识别率相对比较要更高。因此,我的结论是对于精度要求不大或者训练样本比较少的情况GMM方法的识别效率更高,训练样本数量在20000~40000间时,可以考虑用最近邻方法。

5参考文献

[1]张学工. 模式识别[M]北京:清华大学出版社,2010.8

[2]王有伟. 手写体数字识别.[D].山东:山东大学硕士学位论文.2004

[3]许东星.基于GMM和高层信息特征的识别研究.[D].河北.中国科学技术大学博士学位论文.2009

[4]Bishop C M. Pattern recognition and machine learning[M]. Vol. 1:springer New York,2006

[5]朱小燕. 手写体字符识别研究[J]. 模式识别与人工智能, 2000

[6] 张林娜. 手写数字识别系统的设计与实现.[D]北京.北京理工大学. 2009

6附录

基于知识库的手写体数字识别

HUNAN UNIVERSITY 课程模式识别 题目基于知识库的手写体数字识别学生姓名 学生学号

专业班级 学院名称 2016 年6 月25 日

基于知识库的手写体数字识别 1案例背景: 手写体数字识别是图像识别学科下的一个分支,是图像处理和模式识别研究领域的重要应用之一,并且具有很强的通用性。由于手写数字的随意性很大,如笔画粗细、字体大小、倾斜角度等因素都有可能直接影响到字符的识别准确率,所以手写体数字识别是一个很有挑战性的课题。在过去的数十年中,研究者们提出了许多识别方法,并取得了一定的成果。在大规模数据统计如例行年检、人口普查、财务、税务、邮件分拣等应用领域都有广阔的应用前景。 本案例实现了手写阿拉伯数字的识别过程,并对手写数字识别的基于统计的方法进行了简要介绍和分析。本文实现的手写字体识别程序具有手写数字图像读取、特征提取、数字模板特征库以及识别功能。 2 理论基础: 2-1手写字体识别方法: 手写体数字识别是一个跨学科的复杂问题,综合了图像处理、模式识别、机器学习等多个领域的知识,其识别过程一般包含图像预处理、特征提取、分类器的设定及其后处理等组成。处理流程如图2-1所示。

图2-1 手写体数子识别流程图 2-2 图像预处理 手写体数字识别的首要工作是图像预处理。在图像预处理过程中需要解决的主要问题有:定位、图像二值化、平滑化(去噪)H J、字符切分、规范化等。图像二值化是指将整个图像呈现出明显的黑白效果。待识别的手写体数字图像在扫描过程中,常会带来一些噪声,用不同的扫描分辨率得到的数字图像,其质量也各不相同,故而要先将这些干扰因素排除掉。另外,还需要正确分割整幅文档图像中的手写体数字,而分割后的数字大小、字体常各不相同,故还需进行归一化处理。 2-3 特征提取 特征提取的目的是从经过预处理后的数字图像中,提取出用以区分与其它数字类别的本质属性并数值化,形成特征矢量的过程。常见的手写体数字特征有:模板特征、统计特征、结构特征和变换特征。 2-4 分类器 不同的分类方式对应不同的分类器,可选的分类器有神经网络、支持向量机

模式识别论文

模式识别综述与应用 院系:计算机与通信工程学院 班级:电子信息10-01班 姓名: 学号:

模式识别综述与应用 摘要 模式识别就是研究用计算机实现人类的模式识别能力的一门学科,目的是利用计算机将对象进行分类。模式识别技术近年来得到了迅速的发展。 关键词 模式识别应用发展状况 前言 模式识别(Pattern Recognition)是人类的一项基本智能,在日常生活中,人们经常在进行“模式识别”。模式识别是一个多领域的交叉学科,它涉及人工智能、统计学、计算机科学、工程学、医学等众多的研究问题。随着2 0世纪4 0年代计算机的出现以及5 0年代人工智能的兴起,模式识别在2 0世纪6 0年代初迅速发展并成为一门新学科。 一、模式与模式识别的概念 广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)。 模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。 模式识别的研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家、神经生理学家的研究内容,属于认知科学的范畴;后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。 二、模式识别方法——统计模式识别方法和结构(句法)模式识别方法 把图像或图像系列分割为线条、边缘,结点,区域等并提供相应的特征,诸如灰度值、颜色、形状、纹理,深度等[5]。目的是要利用这些信息对模式进行分类或者对模式进行分析(描述)。分类是实现一个模式与

手写数字识别的实现

燕山大学 课程设计说明书 题目:手写数字识别的实现 学院(系):电气工程学院 年级专业: 08-自动化仪表 学号: 080103020179 学生姓名:付成超 指导教师:林洪彬程淑红 教师职称:讲师讲师 2010年 12 月 24 日

燕山大学课程设计(论文)任务书 院(系):电气工程学院基层教学单位:自动化仪表系 学号080103020179 学生姓名付成超专业(班级)自动化仪表设计题目手写数字识别实现 设 计技术参数 通过由数字构成的图像,自动实现几个不同数字的识别,设计识别方法,有较高的识别率 设计要求 设计图像中不同数字的识别方法,可以先从两个数字的识别开始,尽量实现多个不同数字的识别。设计中应该有自己的思想、设计体会 工作量1.分析图像特征,查阅相关资料,根据图像的特征提出解决问题的思路。2.查阅相关资料,学会MATLAB的编程方法 3.根据解决思路,编辑程序,根据调试结果,修改相应思路,找出最佳解决方案 工作计划周一分析图像,查阅各种资料,提出可行的解决方案。周二熟悉MATLAB软件,学会软件的简单编程方法。 周三根据可行的方法,编写程序,调试并修改方案。周四根据调试结果,选取最佳方案并完成设计论文。周五进一步完善设计论文,准备论文答辩。 参考资料[] MICHAEL SIPSER著,张立昂等译,《计算理论导引》,机械工业出版社,2000。 [2] 王晓龙,关毅等编,《计算机自然语言处理》,清华大学出版社,2005。 [3] R.C.Gonzales等著,阮秋崎等译,《数字图像处理》,电子工业出版社,2002。 [4] 王文杰等编,《人工智能原理》,人民邮电出版社,2003。 指导教师签字基层教学单位主任签字 2010年 12 月 24 日

模式识别论文

模式识别 课题:基于支持向量机人工神经网络的水质预测研究专业:电子信息工程

摘要 针对江水浊度序列宽频、非线性、非平稳的特点,将经验模态分解(EMD)和支持向量机(SVM)回归方法引入浊度预测领域,建立了基于EMD2SVM的浊度预测模型.通过EMD分解,将原始非平稳的浊度序列分解为若干固有模态分量(IMF),根据各IMF序列的特点,选择不同的参数对各IMF序列进行预测,最后合成原始序列的预测值.将该方法应用于实际浊度预测,并与径向基神经网络(RBF)预测及单独支持向量机回归预测结果进行比较,仿真结果表明该方法预测精度有明显提高.水质评价实际上是一个监测数据处理与状态估计、识别的过程,提出一种基于支持向量机的方法应用于水质评价,该方法依据决策二叉树多类分类的思想,构建了基于支持向量机的水环境质量状况识别与评价模型。以长江口的实际水质监测数据为例进行了实验分析,并与单因子方法及单个BP神经网络方法进行了比较分析。实验结果表明,运用该模型对长江口的实际水质监测数据进行的综合水质评价效果较好,且具有较高的实用价值。 关键词:浊度;预测;经验模态分解;支持向量;BP神经网络 一.概述 江水浊度受地表径流、温度以及人类活动等的影响,波动明显,在不同的月份有着很大的变化,表现出非平稳、非线性的特点.对其进行分析和预测,对于河流生态评价、航运安全以及以江河水为原水的饮用

水生产具有重要的指导意义.国内外在浊度序列分析方面的研究文献较少,通常都是综合考虑各种水质参数而对浊度进行预测,采用较多的是人工神经网络等非线性模型方法[1,2].这种模型结构复杂,要求原始数据丰富,在实际操作中实现较为困难.此外,对于江水浊度这一具有宽带频谱的小样本混沌时间序列,采用单一的预测方法,将会把原始浊度序列中的各种不同特征信息同质化,势必影响其预测精度.采用经验模态分解(Empirical Mode Decomposition,EMD)将浊度序列分解后分别预测,再进行合成将可能提高其预测精度.不同于小波变换,在对信号进行经验模态分解时不需要先验基底,每一个固有模态函数(In2trinsic Mode Function,IMF)包含的频率成分不仅与采样频率有关,并且还随着信号本身的变化而变化,具有自适应性,能够把局部时间内含有的多个模态的非线性、非平稳信号分解成若干个彼此间影响甚微的基本模态分量,这些分量具有不同的尺度,从而简化系统间特征信息的干涉或耦合[3].支持向量机(Support Vector Ma2chines,SVM)是建立在统计学习理论上的一种机器学习方法,是目前针对小样本统计估计和预测学习的较好方法[4],对统计学习理论的发展起到巨大推动作用并得到广泛应用[5~8].SVM有良好的泛化能力,并解决了模型选择与欠学习、过学习问题及非线性问题,避免了局部最优解,克服了“维数灾难”,且人为设定参数少,便于使用,已成功应用于许多分类、识别和回归问题[5,6,8].根据江水浊度序列的特点,结合EMD和SVM两种方法的不同功能,本文提出了基于EMD2SVM模型的预测方法,用于江水浊度的

手写数字识别系统的设计与实现

] 手写数字识别系统的设计与实现 摘要本手写数字识别系统是一个以VISUAL STUDIO C++ 为编译环境,使用MFC进行图形图像界面开发的系统。主要功能是通过在点击手写数字识别菜单下的绘制数字标签弹出的绘制数字窗口中完成数字的手写,在此窗口中可以进行数字的保存及清屏,然后通过文件菜单中的打开标签打开所绘制的数字,从而进行数字的预处理,其中包括灰度化及二值化处理,然后进行特征提取,最后实现数字的识别。本系统的界面设计友好,流程正确,功能也较为完善。实验结果表明,本系统具有较高的识别率。 关键词:绘制数字;预处理;特征提取;特征库;数字识别 / ;

目录 前言 (1) 概述 (2) 1 需求分析 (4) 功能需求分析 (4) , 性能需求分析 (4) 数据需求分析 (5) 相关软件介绍 (5) 2 手写数字识别系统的设计与基本原理 (6) 系统整体功能模块设计 (6) 手写数字识别系统的基本原理 (6) 数字图像的绘制 (6) 图像的预处理 (6) ) 图像的特征提取 (7) 特征库的建立 (8) 图像数字的识别 (8) 3 手写数字识别系统程序设计 (8) 数字图像的绘制 (8) 数字的特征提取 (15) 模板特征库的建立 (18) 数字的识别 (20) (

总结 (23) 致谢 (24) 参考文献 (25)

前言 自上世纪六十年代以来,计算机视觉与图像处理越来越受到人们的关注,并逐渐成为一门重要的学科领域。而作为它们的研究对象的数字图像,也因为它含有研究目标的丰富信息而成为越来越重要的研究对象。图像识别的目标是用计算机自动完成某些信息的处理,用来替代人工去处理图像分类及识别的任务。 手写数字识别是图像识别学科下的一个分支,是图像处理和模式识别领域研究的课题之一,由于其具有很强的实用性一直是多年来的研究热点。由于手写体数字的随意性很大,例如,笔画的粗细,字体的大小,倾斜等等都直接影响到字符的正确识别,所以手写体数字识别是一个很有挑战性的课题。在过去的数十年中,研究者们提出了许多的识别方法,取得了较大的成果。手写体数字识别实用性很强,在大规模数据统计(如例行年检,人口普查),财务,税务,邮件分拣等等应用领域中都有广阔的应用前景。本课题拟研究手写体数字识别的理论和方法,开发一个小型的手写体数字识别系统。 在研究手写体数字识别理论和方法的基础上,开发这样一个小型的手写体数字识别系统需要完成以下主要方面的研究与设计工作:手写数字绘制的问题、数字的预处理问题、特征提取问题、特征库的建立问题、数字识别问题。

(完整版)手写体数字识别系统设计毕业设计

石河子大学 信息科学与技术学院毕业论文 课题名称:手写体数字识别系统设计 学生姓名: 学号: 学院:信息科学与技术学院

专业年级:电子信息工程2007级指导教师: 职称: 完成日期:二○一一年六月十一日

手写体数字识别系统设计 学生: 指导教师: [摘要] 随着科学技术的迅速发展,在邮政编码、统计报表、财务报表、银行票据等处理大量字符信息录入的场合,手写数字识别系统的应用需求越来越强烈,如何将数字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问题。本文设计实现了一个基于Matlab软件的手写体数字识别系统,采用模块化设计方法,编写了摄像头输入、直接读取图片、写字板输入三个模块,利用摄像头等工具,将以文本形式存在的手写体数字输入进计算机,完成对手写体数字图片的采集,并设计了一种手写数字识别方法,对手写体数字图像进行预处理、结构特征提取、分类识别,最终以文本形式输出数字,从而实现手写体数字的识别。 [关键词] 预处理,结构特征提取,分类识别,手写体数字识别

Handwritten Digit Recognition System Students: Teacher:

Abstract:With the rapid development of science and technology, in zip code, statistics, reports, financial statements, Bank bills dealing with a large number of characters, such as information recorded occasions, handwritten digit recognition system of requirement has become stronger and stronger, how easily and quickly the number entered in the computer has become a key issue relates to the popularization of computer technology. This article design implementation has a based on Matlab software of handwriting body digital recognition system, used module of design method, write has camera entered, and directly read pictures, and write Board entered three a module, using camera, tools, will to text form exists of handwriting body digital entered into computer, completed on handwriting body digital pictures of collection, and design has a handwriting digital recognition method, on handwriting body digital image for pretreatment, and structure features extraction, and classification recognition, eventually to text form output digital, to implementation handwriting body digital of recognition. Key words: Pretreatment, structure feature extraction, classification and recognition, handwritten digit recognition.

模式识别结课论文

中国传媒大学2014~2015 学年第 1 学期 智能视频分析技术课程 题目人工智能在模式识别中的运用学生姓名刘晶晶 学号201110013208 班级数字媒体技术 学生所属学院信息工程学院 任课教师吕朝辉 教师所属学院信息工程学院 时间2014.11.27

人工智能在模式识别中的应用 摘要 计算机硬件的迅速发展,计算机应用领域的不断开拓,迫切地要求计算机能够更有效地感知诸如声音、文字、图像、温度、震动等人类赖以发展自身、改造环境所运用的信息资料。但就一般意义来说,目前一般计算机却无法直接感知它们,键盘、鼠标等外部设备,对于这样五花八门的外部世界显得无能为力。纵然电视摄像机、图文扫描仪、话筒等设备业已解决了上述非电信号的转换,并与计算机联机,但由于识别技术不高,而未能使计算机真正知道采录后的究竟是什么信息。计算机对外部世界感知能力的低下,成为开拓计算机应用的瓶颈,也与其高超的运算能力形成强烈的对比。于是,着眼于拓宽计算机的应用领域,提高其感知外部信息能力的学科——模式识别,便得到迅速发展。人工智能所研究的模式识别是指用计算机代替人类或帮助人类感知模式,是对人类感知外界功能的模拟,研究的是计算机模式识别系统,也就是使一个计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的感知能力。现将人工智能在模式识别方面的一些具体和最新的应用列举如下。 关键词:人工智能、模式识别、应用 (一)人工智能 人工智能(Anificial InteUigence)是相对人的自然智能而言,即用人工的方法和技术,模仿、延伸和扩展人的智能,实现某些“机器思维”。作为一门学科,人工智能研究智能行为的计算模型,研制具有感知、推理、学习、联想、决策等思维活动的计算系统,解决需要人类专家才能处理的复杂问题。人工智能就其本质而言,是对人的思维的信息过程的模拟。 (二)模式识别 模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读。这里,我们把环境与客体统称为“模式”,随着计算机技术的发展,人类有可能研究复杂的信息处理过程。用计算机实现模式(文字、声音、人物、物体等)的自动识别,是开发智能机器的一个最关键的突破口,也为人类认识自身智能提供线索。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要

基于神经网络的手写数字识别系统的设计与实现

中南大学 本科生毕业论文(设计) 题目基于神经网络的手写数字 识别系统的设计与实现

目录 摘要 (Ⅰ) ABSTRACT (Ⅱ) 第一章绪论 (1) 1.1手写体数字识别研究的发展及研究现状 (1) 1.2神经网络在手写体数字识别中的应用 (2) 1.3 论文结构简介 (3) 第二章手写体数字识别 (4) 2.1手写体数字识别的一般方法及难点 (4) 2.2 图像预处理概述 (5) 2.3 图像预处理的处理步骤 (5) 2.3.1 图像的平滑去噪 (5) 2.3.2 二值话处理 (6) 2.3.3 归一化 (7) 2.3.4 细化 (8) 2.4 小结 (9) 第三章特征提取 (10) 3.1 特征提取的概述 (10) 3.2 统计特征 (10) 3.3 结构特征 (11) 3.3.1 结构特征提取 (11) 3.3.2 笔划特征的提取 (11) 3.3.3 数字的特征向量说明 (12) 3.3 知识库的建立 (12) 第四章神经网络在数字识别中的应用 (14) 4.1 神经网络简介及其工作原理 (14) 4.1.1神经网络概述[14] (14) 4.1.2神经网络的工作原理 (14) 4.2神经网络的学习与训练[15] (15) 4.3 BP神经网络 (16) 4.3.1 BP算法 (16) 4.3.2 BP网络的一般学习算法 (16)

4.3.3 BP网络的设计 (18) 4.4 BP学习算法的局限性与对策 (20) 4.5 对BP算法的改进 (21) 第五章系统的实现与结果分析 (23) 5.1 软件开发平台 (23) 5.1.1 MATLAB简介 (23) 5.1.2 MATLAB的特点 (23) 5.1.3 使用MATLAB的优势 (23) 5.2 系统设计思路 (24) 5.3 系统流程图 (24) 5.4 MATLAB程序设计 (24) 5.5 实验数据及结果分析 (26) 结论 (27) 参考文献 (28) 致谢 (30) 附录 (31)

模式识别课程论文

模式识别课程学习感想 人类可以通过视觉信息识别文字、图片和周围的环境,通过听觉信息识别与理解语言,比如识别人脸,阅读手写文字,通过气味识别一种水果的种类等。我们希望给机器相同的模式识别能力。 模式识别主要是研究对象的特征或属性,利用以计算机为中心的机器系统运用一定的分析算法认定对象的类别,系统应使分类识别的结果尽可能地与真实情况相符合。模式识别方法最大的实用性在于“智能”仿真,可以说在同常生活中随处可见,如医疗诊断系统、地球资源探测系统、机器人辅助生产线、公安人员用于破案的指纹识别系统等。模式识别包含由特征和属性所描述的对象的数学模型,这罩所讲的特征和属性是指通常意义上的系统的输入/输出数据对。 模式识别系统主要由两个过程组成,即设计过程和实现过程。设计过程是指用一定数量的样本(也称训练集或学习集)进行分类器的设计;实现过程是指用所设计的分类器对待识别的样本进行分类决策。 通过这门课程的学习,对各种模型的模式识别算法有了一定程度的了解。 一、线性模型 我们使用线性神经网络来解决线性模型的模式识别。线性神经网络与感知器的主要不同之处在于其神经元有一个线性激活函数,这允许输出可以是任意值,而不仅仅只是像感知器中那样只能取0或1。它采用的是W—H学习法则,也称最小均方差(LMS)规则对权值进行训练。线性神经网络的主要用途是线性逼近一个函数式而进行模式联想。 二、非线性模型 1、Ada-Boosting 基于级联结构的AdaBoost算法目前被认为是较有效的检测算法。 Boosting是一个将弱学习(weak learn)算法融合为强学习算法(strong)的方法。Ada-Boost 算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将每次训练得到的分类器最后融合起来,作为最后的决策分类器。目前在人脸侦测的领域,就有人将Ada-Boost + cascade 作为一个很有效的运算法。Boost是一种常用来增进learning algorithm正确率的方法。使用boost 分类器可以排除一些不必要的特征,并将关键放在关键的特征上面。 AdaBoost算法针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(弱分类器)。理论证明,只要每个弱分类器分类能力比随机猜测要好,当其个数趋向于无穷个数时,强分类器的错误率将趋向于零。AdaBoost算法中不同的训练集是通过调整每个样本的权重实现的。最开始的时候,每个样本对应的权重是相同的,在此样本分布下训练出一个基本分类器h1(x)。对于h1(x)错分的样本,则增加其对应样本的权重;而对于正确分类的样本,则降低其权重。这样可以使得错分的样本突出出来,得到一个新的样本分布。同时,根据错分的情况赋予h1(x)一个权重,表示该基本分类器进行训练,得到基本分类器h2(x)及其权重。依次类推,经过T 次这样的循环,就得到了T个基本分类器,以及T个对应的权重。最后把这T个基本分类器按一定的权重累加起来,就得到了最终所期望的强分类器。 2、多层感知机 神经网络具有强大的非线性映射能力,人工神经网络的实际应用中,绝大部分的神经网

手写体数字的识别

手写体数字识别 第一章绪论 (4) 1.1课题研究的意义 (4) 1.2国内外究动态目前水平 (4) 1.3手写体数字识别简介 (5) 1.4识别的技术难点 (5) 1.5主要研究工作 (6) 第二章手写体数字识别基本过程: (6) 2.1手写体数字识别系统结构 (6) 2.2分类器设计 (7) 2.2.1 特征空间优化设计问题 (7) 2.2.2分类器设计准则 (8) 2.2.3分类器设计基本方法 (9) 3.4 判别函数 (9) 3.5训练与学习 (10) 第三章贝叶斯方法应用于手写体数字识别 (11) 3.1贝叶斯由来 (11) 3.2贝叶斯公式 (11) 3.3贝叶斯公式Bayes决策理论: (12) 3.4贝叶斯应用于的手写体数字理论部分: (16) 3.4.1.特征描述: (16) 3.4.2最小错误分类器进行判别分类 (17) 第四章手写体数字识别的设计流程及功能的具体实现 (18) 4.1 手写体数字识别的流程图 (18) 4.2具体功能实现方法如下: (19) 结束语 (25) 致谢词 (25) 参考文献 (26) 附录 (27)

摘要 数字识别就是通过计算机用数学技术方法来研究模式的自动处理和识别。随着计算机技术的发展,人类对模式识别技术提出了更高的要求。特别是对于大量己有的印刷资料和手稿,计算机自动识别输入己成为必须研究的课题,所以数字识别在文献检索、办公自动化、邮政系统、银行票据处理等方面有着广阔的应用前景。 对手写数字进行识别,首先将汉字图像进行处理,抽取主要表达特征并将特征与数字的代码存储在计算机中,这一过程叫做“训练”。识别过程就是将输入的数字图像经处理后与计算机中的所有字进行比较,找出最相近的字就是识别结果。 本文主要介绍了数字识别的基本原理和手写的10个数字字符的识别系统的设计实现过程。第一章介绍了数字识别学科的发展状况。第二章手写体数字识别基本过程。第三章贝叶斯方法应用于手写体数字识别。第四章手写体数字识别的设计流程及功能的具体实现,并对实验结果做出简单的分析。 关键词:手写体数字识别分类器贝叶斯vc++6.0 错误!未找到引用源。

时间序列分析中模式识别方法的应用-模式识别论文

时间序列分析中模式识别方法的应用 摘要:时间序列通常是按时间顺序排列的一系列被观测数据,其观测值按固定的时间间隔采样。时间序列分析(Time Series Analysis)是一种动态数据处理的统计方法,就是充分利用现有的方法对时间序列进行处理,挖掘出对解决和研究问题有用的信息量。经典时间序列分析在建模、预测等方面已经有了相当多的成果,但是由于实际应用中时间序列具有不规则、混沌等非线性特征,使得预测系统未来的全部行为几乎不可能,对系统行为的准确预测效果也难以令人满意,很难对系统建立理想的随机模型。神经网络、遗传算法和小波变换等模式识别技术使得人们能够对非平稳时间序列进行有效的分析处理,可以对一些非线性系统的行为作出预测,这在一定程度上弥补了随机时序分析技术的不足。【1】 本文主要是对时间序列分析几种常见方法的描述和分析,并重点介绍神经网络、遗传算法和小波变换等模式识别方法在时间序列分析中的典型应用。 关键字:时间序列分析模式识别应用 1 概述 1.1 本文主要研究目的和意义 时间序列分析是概率论与数理统计学科的一个分支,它是以概率统计学作为理论基础来分析随机数据序列(或称动态数据序列),并对其建立数学模型,即对模型定阶、进行参数估计,以及进一步应用于预测、自适应控制、最佳滤波等诸多方面。由于一元时间序列分析与预测在现代信号处理、经济、农业等领域占有重要的地位,因此,有关的新算法、新理论和新的研究方法层出不穷。目前,结合各种人工智能方法的时序分析模型的研究也在不断的深入。 时间序列分析已是一个发展得相当成熟的学科,已有一整套分析理论和分析工具。传统的时间序列分析技术着重研究具有随机性的动态数据,从中获取所蕴含的关于生成时间序列的系统演化规律。研究方法着重于全局模型的构造,主要应用于对系统行为的预测与控制。 时间序列分析主要用于以下几个方面:

手写体数字识别系统的设计与实现

大学生研究计划项目 论文报告 项目名称:_手写体数字识别系统的设计与实现 负责人:_________ _______________ 学院/专业:_____ ______ 学号:____ ________ 申请经费:_____ _________________ 指导教师:______ _______ 项目起止时间:2011年6月-2012年3月

摘要 手写体数字识别系统依托计算机应用软件为载体,利用C++程序设计的相关知识,运用模块设计等相关技术,最终完成手写体设计系统的程序综合设计。 关键字:手写体数字处理模式识别程序设计 一、论题概述 模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机器来实现人(及某些动物)对事物的学习、识别和判断能力,因而受到了很多科技领域研究人员的注意,成为人工智能研究的一个重要方面。 字符识别是模式识别的一个传统研究领域。从50年代开始,许多的研究者就在这一研究领域开展了广泛的探索,并为模式识别的发展产生了积极的影响。 字符识别一般可以分为两类:1.联机字符识别;2.光学字符识别(Optical Chara- cter Recognition,OCR)或称离线字符识别。在联机字符识别中,计算机能够通过与计算机相连的输入设备获得输入字符笔划的顺序、笔划的方向以及字符的形状,所以相对OCR来说它更容易识别一些。但联机字符识别有一个重要的不足就是要求输入者必须在指定的设备上书写,然而人们在生活中大部分的书写情况是不满足这一要求的,比如人们填写各种表格资料,开具支票等。如果需要计算机去认识这些己经成为文字的东西,就需要OCR技术。比起联机字符识别来,OCR不要求书写者在特定输入设备上书写,它可以与平常一样书写,所以OCR 的应用更为广泛。OCR所使用的输入设备可以是任何一种图像采集设备,如CCD、扫描仪、数字相机等。通过使用这类采集设备,OCR系统将书写者已写好的文字作为图像输入到计算机中,然后由计算机去识别。由于OCR的输入只是简单的一副图像,它就不能像联机输入那样比较容易的从物理特性上获得字符笔划的顺序信息,因此OCR是一个更具挑战性的问题。 数字识别是多年来的研究热点,也是字符识别中的一个特别问题,它是本文研究的重点。数字识别在特定的环境下应用特别广泛,如邮政编码自动识别系统,税表和银行支票自动处理系统等。一般情况下,当涉及到数字识别时,人们往往要求识别器有很高的识别可靠性,特别是有关金额的数字识别时,如支票中填写

模式识别人工智能论文

浅谈人工智能与模式识别的应用 一、引言 随着计算机应用范围不断的拓宽,我们对于计算机具有更加有效的感知“能力”,诸如对声音、文字、图像、温度以及震动等外界信息,这样就可以依靠计算机来对人类的生存环境进行数字化改造。但是从一般的意义上来讲,当前的计算机都无法直接感知这些信息,而只能通过人在键盘、鼠标等外设上的操作才能感知外部信息。虽然摄像仪、图文扫描仪和话筒等相关设备已经部分的解决了非电信号的转换问题,但是仍然存在着识别技术不高,不能确保计算机真正的感知所采录的究竟是什么信息。这直接使得计算机对外部世界的感知能力低下,成为计算机应用发展的瓶颈。这时,能够提高计算机外部感知能力的学科——模式识别应运而生,并得到了快速的发展,同时也成为了未来电子信息产业发展的必然趋势。 人工智能中所提到的模式识别是指采用计算机来代替人类或者是帮助人类来感知外部信息,可以说是一种对人类感知能力的一种仿真模拟。近年来电子产品中也加入了诸多此类的功能:如手机中的指纹识别解锁功能;眼球识别解锁技术;手势拍照功能亦或是机场先进的人耳识别技术等等。这些功能看起来纷繁复杂,但如果需要一个概括的话,可以说这都是模式识别技术给现代生活带来的福分。它探讨的是计算机模式识别系统的建立,通过计算机系统来模拟人类感官对外界信息的识别和感知,从而将非电信号转化为计算机可以识别的电信号。 二、人工智能和模式识别 (一)人工智能。人工智能(Artificial Intelligence),是相对与人的自然智能而言的,它是指采用人工的方法及技术,对人工智能进行模仿、延伸及扩展,进而实现“机器思维”式的人工智能。简而言之,人工智能是一门研究具有智能行为的计算模型,其最终的目的在于建立一个具有感知、推理、学习和联想,甚至是决策能力的计算机系统,快速的解决一些需要专业人才能解决的问题。从本质上来讲,人工智能是一种对人类思维及信息处理过程的模拟和仿真。 (二)模式识别。模式识别,即通过计算机采用数学的知识和方法来研究模式的自动处理及判读,实现人工智能。在这里,我们将周围的环境及客体统统都称之为“模式”,即计算机需要对其周围所有的相关信息进行识别和感知,进而进行信息的处理。在人工智能开发,即智能机器开发过程中的一个关键环节,就是采用计算机来实现模式(包括文字、声音、人物和物体等)的自动识别,其在实现智能的过程中也给人类对自身智能的认识提供了一个途径。在模式识别的过程中,信息处理实际上是机器对周围环境及客体的识别过程,是对人参与智能识别的一个仿真。相对于人而言,光学信息及声学信息是两个重要的信息识别来源和方式,它同时也是人工智能机器在模式识别过程中的两个重要途径。在市场上具有代表性的产品有:光学字符识别系统以及语音识别系统等。 在这里的模式识别,我们可以将之理解成为:根据识别对象具有特征的观察值来将其进行分类的一个过程。采用计算机来进行模式识别,是在上世纪60年

手写数字识别实践指导手册

手写数字系统实践指导手册 1 问题描述 设计一个简单的手写数字识别系统,能够识别手写输入的数字1-9并且能够识别选中的文本文件中的数字,应具有简单方便的操作界面,输入输出等。 1.1功能需求分析 通过分析,以及从用户的角度考虑,系统应该具有以下功能: (1)数字的手写输入。作为一个手写数字识别系统,首先应该能够让用户过绘制窗口进行数字绘制,系统得到用户的手写输入进行处理。 (2)直接选择文件。用户还可以选择系统中的文本文件进行处理。 (3)数据预处理。包括计算数据大小、二值化、格式化处理等。 (4)数字提取。将经过二值化后的图像中的个数字区域进行提取,只有能够将数字进行准确的提取,才能将其一一识别。 (5)基准库的选择与建立。选择一个可供系统训练和测试的样本库非常重要,本系统的训练集和测试集选择的是《机器学习实战》中所给的数据。 (6)识别数字。经过训练集进行训练后,使用knn算法对需要识别的数字识别。 2 数据集获取 ●任务要求: 从网上爬取或者下载适合进行手写数字识别系统的训练集和测试集 ●实践指导: 方式一:自己从网上找适合的数据下载 方式二:推荐数据集:“手写数字数据集的光学识别”一文中的数据集合,该文登载与2010年10月3日的UCI机器学习资料库中https://www.360docs.net/doc/ca5227636.html,/ml

3 功能设计与实现 3.1手写数字识别系统结构图: 图一:系统结构图 3.2识别用户选择手选文件功能设计与实现 ●任务要求: 用户可以自己从电脑中选择文本文件进行识别。 ●实践指导: KNN分类器的构造思路及原理如下: 1)选择训练集和测试集。系统所采用的数据集选用的是“手写数字数据集的光学识别”一文中的数据集合。0-9每个数字大约有200个训练数据20个测试数据。数字的文本格式如图所示。

手写数字识别的原理及应用

手写数字识别的原理及应用 林晓帆丁晓青吴佑寿 一、引言 手写数字识别(Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。 在整个OCR领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决方案。 二、研究的实际背景 字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。 三、研究的理论意义 手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值: 1.阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨,比较各种研究方法。 2.由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这方面最明显的例子就是人工神经网络(ANN)------相当一部分的ANN模型和算法都以手写数字识别作为具体的实验平台,验证理论的有效性,评价各种方法的优缺点。 3.尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问题(Open problem)。

模式识别课程论文

模式识别课程设计 模式识别中基于概率统计的 Bayes 算 法分析 学号:1102100119 班级:自动化111班 姓名:许世坚

首先对模式识别所用到的理论、研究背景、研究现状及典型应用进行全面的阐述;其次,探讨了如何提取数字字符的特征值,并对各种分类器的设计方法及其优缺点进行了比较;最后采用了以模板库为基础的基于二值数据的Bayes分类实现的识别方法,并以VC++作为编程工具实现了具有友好的图形用户界面的自由手写体数字识别系统。给出了部分实现算法的代码。实现了对字体数字的识别。 下面介绍阐述模式识别中用到的Bayes算法理论,研究背景及其典型应用,在典型应用中,探讨提取数字字符bayes算法分类器的设计方法并比较其优缺点,给出其算法的C++实现,利用VC++实现编程工具实现图形界面。 模式识别就是机器识别,计算机识别或者机器自动识别,目的在于让机器自动识别事物,如手写数字的识别,智能交通管理信号的识别,文字识别,语音识别等。模式识别这个学科的目的就是让机器能做人类能做的事情,具备人类所具有的对各种事物与现象进行分析,描述与判断的部分能力。模式识别是直观的,无所不在。人与动物具有模式识别的能力是非常平常的事情,但是对计算机来说实现模式识别是非常困难的。让机器能够识别,分类需要研究识别的方法。而模式识别可以概括为两个类型,一个是直接形象的,例如图片,相片,

图案,字符图案等;另外的就是无知觉形象而只有数据或信号的波形,如语音,声音,心电图,地震波等。 Bayes决策所讨论的问题: 基于最小错误率的Bayes决策指出机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类实现可能性最小;基于最小错误风险的Bayes决策,引入了风险与损失概念,希望做到使风险最小,减小危害大的错分类情况。错分类造成损失不一样,不同的错误分类造成的损失也是不一样的,不同的错误分类造成的损失会不相同,后一种错误更加可怕,因此就考虑减小因错误分类造成的危害损失。 2.Bayes算法 若已知总共有M类物体,以及各类在这d维特征空间的统计分布,具体说来就是已知各类别wi=1,2,…M的先验概率P(wi)及类条件概率密度函数P(X|wi)。对于待测样品,Bayes公式可以计算出该样品分属于各类别的概率,叫做后验概率,看X属于哪个类的可能性最大,就把X归于可能性最大的那个类,后验概率作为识别对象归属的依据。Bayes公式如下: 识别的状态就是一个随机变量,而某种状态出现概率是可以估计的。Bayes公式体现了先验概率,类概率密度函数,后验概率三者

基于知识库的手写体数字识别

HUNAN UNIVERSITY 2016 年6 月 25 日 课程 模式识别 题 目 基于知识库的手写体数字识别 学生姓名 学生学号 专业班级 学 院 名 称

基于知识库的手写体数字识别 1案例背景: 手写体数字识别是图像识别学科下的一个分支,是图像处理和模式识别研究领域的重要应用之一,并且具有很强的通用性。由于手写数字的随意性很大,如笔画粗细、字体大小、倾斜角度等因素都有可能直接影响到字符的识别准确率,所以手写体数字识别是一个很有挑战性的课题。在过去的数十年中,研究者们提出了许多识别方法,并取得了一定的成果。在大规模数据统计如例行年检、人口普查、财务、税务、邮件分拣等应用领域都有广阔的应用前景。 本案例实现了手写阿拉伯数字的识别过程,并对手写数字识别的基于统计的方法进行了简要介绍和分析。本文实现的手写字体识别程序具有手写数字图像读取、特征提取、数字模板特征库以及识别功能。 2 理论基础: 2-1手写字体识别方法: 手写体数字识别是一个跨学科的复杂问题,综合了图像处理、模式识别、机器学习等多个领域的知识,其识别过程一般包含图像预处理、特征提取、分类器的设定及其后处理等组成。处理流程如图2-1所示。 图2-1 手写体数子识别流程图 2-2 图像预处理 手写体数字识别的首要工作是图像预处理。在图像预处理过程中需要解决的主要问题有:定位、图像二值化、平滑化(去噪)H J、字符切分、规范化等。图像二值化是指将整个图像呈现出明显的黑白效果。待识别的手写体数字图像在扫描过程中,常会带来一些噪声,用不同的扫描分辨率得到的数字图像,其质量也各不相同,故而要先将这些干扰因素排除掉。另外,还需要正确分割整幅文档图像中的手写体数字,而分割后的数字大小、字体常各不相同,故还需进行归一化处理。 2-3 特征提取 特征提取的目的是从经过预处理后的数字图像中,提取出用以区分与其它数字类别的本质属性并数值化,形成特征矢量的过程。常见的手写体数字特征有:模板特征、统计特征、结构特征和变换特征。

模式识别结课论文

模式识别论文 题目基于Matlab 的语音识别系统 Title: the voice recognition system based on matlab 摘要 语音是人的自然属性之一,是人类信息交流的基本手段。语音中包含有多种信息,如语义信息、语言信息、说话人信息、情感信息等。语音识别就是从语音信号中识别出这些信息。按照任务的不同,语音识别可以分为四个方面:说话人识别、语种识别、关键词识别和连续语音识别。 语音识别是以声音作为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。语音识别作为一门兼具理论价值与应用价值的研究课题,得到越来越多研究者的兴趣和关注,各种各样的语音识别方法层出不穷。 本次课程论文通过分析MFCC系数和语音识别的基本原理,应用Matlab 设计实验程序并结合VQ矢量量化模型完成语音识别的VQ实现。 本次课程论文通过语音识别的相关的背景、步骤以及原理,设计了一个mat lab语音识别实验,并包含了实验的流程和结果。

关键词:语音识别;Matlab;模式识别 一、引言:近年来,语音识别作为一门兼具理论价值与应用价值的研究课题,得到越来越多研究者的兴趣和关注,各种各样的语音识别方法层出不穷。本次课 程论文通过语音识别的基本原理,应用Matlab 设计实验程序。语音识别是以 声音作为研究对象它是语音信号处理的一个重要研究方向,是模式识别的一个分支涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。 二、.原理分析 1 语音识别系统的特征提取 语音识别系统中的特征提取即提出适合分类的某些信息特征(如说话人,或语言特征,或关键词特征),次特征应能有效地区分不同的模式,而且对同种方式的变化保持相对稳定。目前的语音识别系统主要依靠较低层次的声学特征进行识别。语音识别特征大致可以分为3类: (1)线性预测系数及其派生参数,如线性预测系数、线谱对系数、线性预测倒谱系数及其组合参数。 (2)由语音频谱直接导出的参数,如基音及其轮廓、美尔频率倒谱系数、感知线性预测参数、口音敏感倒谱系数。 (3)混合参数。混合参数由以上不同的参数组成的矢量。 2 语音识别系统的分类模型 模型建立是指在训练阶段用合适的模型来表征这些参数,使得模型能够代表该语言的语音特性。对模型的选择主要应从语音的类型、所期望的性能、训练和更新的难易程度以及计算量和存储量等方面综合考虑。可分为以下四类:

相关文档
最新文档