手写字符识别系统设计

手写字符识别系统设计
手写字符识别系统设计

版本:V1.0

手写字符识别系统设计说明书

湖南大学信息科学与工程学院

二0一四年六月

目录

1引言 (2)

1.1目的 (2)

1.2阅读对象 (2)

2项目概述 (2)

2.1项目简介 (2)

2.2项目任务 (2)

2.3实验环境介绍 (2)

3任务描述 (3)

3.1背景资料概述 (3)

3.2系统组成 (3)

3.3系统评估 (5)

4机器学习算法介绍 (5)

4.1支持向量机 (5)

4.2BP神经网络 (6)

4.3决策树方法 (7)

5特征选择 (8)

6参考资料和实用网站 (9)

1引言

1.1目的

随着图像处理技术与机器学习技术的发展,机器视觉技术已广泛应用于工业生产、日常生活及城市管理中。字符识别作为机器视觉的一种基本应用,在车牌识别、光学字符识别(OCR,Optical Character Recognition)等应用中均有涉及。

本说明书旨在介绍基于常用机器学习算法(如BP神经网络、支持向量机、朴素贝叶斯、K近邻分类)的手写字符识别系统的设计需求,设计方法和环境介绍,帮助学生了解字符识别的基本流程,常用机器学习算法的基本原理,掌握机器视觉应用的开发技术。

1.2阅读对象

本说明书的阅读对象有:

●数字媒体类相关专业学生

●相关客户人员,体验用户等

2项目概述

2.1项目简介

本项目旨在基于机器学习算法实现手写字符(包括数字和大小写字母)的识别。该系统通过读入一张图片或通过鼠标绘制字符的方式,实现识别对象的输入,通过BP神经网络、支持向量机、朴素贝叶斯或K近邻分类方法实现手写字符的识别,并输出识别的结果。

2.2项目任务

项目名称:手写字符识别系统的设计

项目内容:1)手写字符的输入;

2)图片预处理与特征提取;

3)机器学习与字符分类;

项目周期:1个月(2014年8月25日——2014年9月20日)

参与人数:2~4人。

2.3实验环境介绍

A)Visual Studio 2010

Visual Studio 2010是继VC6.0后微软推出的一款新的高级语言编译器,可支持C#、C++、Basic以及Asp等编程语言的开发,具有强大的代码调试功能,是一个功能强大的可视化软件集成开发工具。本项目将使用Visual Studio 2010进行代码的编辑、编译与调试。

B)Visual Assist

为了提高代码编写的效率,可安装Visual Assist X插件。Visual Assist X插件是WholeTomato公司针对Visual Studio开发环境开发的一款代码编写辅助工具,能够实现变量名、函数名的自动提示与补全,以及函数定义与声明之间的快速切换,从而达到提高开发效率的目的。

C)OpenCV

OpenCV(Open Computer Vision)是一个开源的跨平台计算机视觉库,可以运行于Linux、Windows和Mac OS操作系统上。它轻量级而且高效,实现了图像处理和计算机视觉方面的很多通用算法。本项目可利用OpenCV实现图像的读取、显示以及一些基本的预处理算法。

网址:https://www.360docs.net/doc/012047067.html,/

3任务描述

3.1背景资料概述

机器学习:利用计算机模拟或实现人类的学习行为,以获取新的知识或技能。因此,机器学习算法通常包括两个阶段:训练和分类。训练阶段,即利用一些已知的训练样本训练得到机器学习算法模型的相应参数。该阶段类似于小孩认字时的学习阶段,老师告诉小孩各种字具有什么样的特征。分类阶段,即对于训练好的算法模型,给定输入数据,计算机自动给出数据的分类。该阶段类似于小孩在进行了学习后可以自主的识字。目前常用的机器学习算法包括:支持向量机(SVM,Support Vector Model)、BP神经网络、决策树

3.2系统组成

基于机器学习的手写字符识别系统通常包括四个部分:图像预处理、特征提取、字符训练与字符识别四个阶段,如图1所示。

图 1 字符识别系统的功能框架

图像预处理:主要包括图像的去噪(中值滤波、高斯滤波),图像的二值化(将彩色图像或灰度图像转化为二值图像),形态学处理(利用闭操作,即先膨胀再腐蚀,将断裂的笔画进行修复)。

特征提取:字符图像由一系列二进制的0和1组成,虽然这些数据包含了字符的全部信息,但是这些数据也包含了大量冗余的信息,并不一定适合于机器进行识别。正如我们人类在识别各种物体的时候,也是抓住了物体的某些本质特征。因此,在进行字符识别前,从字符图像中提取尽可能好的特征对于提高识别的正确率具有重要的意义。

常用的特征提取的方法包括:(1)直接将字符图像看成是一个一维特征向量,无需其他处理。该方法简单,在有些时候也行之有效,但由于特征维数较高,往往需要大量的训练样本学习算法才能收敛。(2)主成分分析法(PCA,Principal Component Analysis),该方法在人脸识别中应用较多。(3)基于不变矩的方法字符训练:给定训练样本,每个样本包括字符图像和对应的字符信息,利用相应的机器学习算法进行学习,得到算法模型的各种参数。本项目中用到的机器学习算法包括:支持向量机、BP神经网络和决策树方法。

为了便于程序的调试,字符训练功能通常作为一个独立的应用程序,无需GUI界面。训练样本可按如下方式组织,相同字符的图像放在相同的文件夹下,文件夹的名称表明了图像的字符类别。字符训练程序读取所有文件夹下的训练样本进行训练。

字符识别:字符训练完成后,对于用户输入的一幅图像,利用训练得到的模型识别出对应的字符。该过程需要实现的功能如图2所示,用户载入一幅字符图像或利用鼠标绘图,通过选择响应的机器学习算法,利用字符训练阶段中获得的模型,识别得到相应的结果。

图 2 字符识别功能

3.3系统评估

系统完成后,需评估系统的字符识别正确率,并比较不同算法的性能好坏。评估过程中,需先建立测试集,测试集应包括两部分,一部分即为训练集的子集,另一部分应与训练集不同;而后统计测试集中每个字符图像的识别正确与否情况,并给出各个算法的分析与对比。

4机器学习算法介绍

4.1支持向量机

我们可以从二维的情况进行理解。如图3所示,如果我们想把图中的二维特征向量(即二维点)分成两类,可以有许多条分割线将这些点分成两类。但什么样的分割线才是最好的呢?通常我们希望每一类中的点到该分界线的最近距离最大,如图3中的红线所示,这样这两类特征点具有更大的区分度,在输入新的特征点时,误判的概率越小。支持向量机算法采用的就是这样的思想,对于二维特征向量而言,即为寻找具有最大区分度的分割线wx+b=0,其中w和b是未知的模型参数,对于高维特征向量而言,分割线变成高维的分割平面,其方程依然可以表示为wx+b=0。

详细的理论过程可以参考:

https://www.360docs.net/doc/012047067.html,/marvin521/article/details/9286099

https://www.360docs.net/doc/012047067.html,/marvin521/article/details/9305497

C++实现,一个网上的开源库libSVM:

https://www.360docs.net/doc/012047067.html,.tw/~cjlin/libsvm/

图 3 支持向量机的模型示意图

4.2BP神经网络

BP(Back Propagation)神经网络是1986年由Rinehart和McClelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最为广泛的神经网络模型之一。它的学习规则使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络的拓扑结构

通常包括输入层(Input Layer )、隐藏层(Hidden Layer )和输出层(Output Layer ),如图 4所示。

图 4 BP 神经网络的拓扑结构

神经元作为神经网络的基本单元,其数学模型为一线性模型,如图 5所示,可表示为:

0n

i j ij j y x w ==∑

图 5 神经元模型

BP 神经网络,即通过最速下降法,不断调整每个神经元的权值,使得神经网络的输出值与给定值尽可能一致。

详细过程可参考: https://www.360docs.net/doc/012047067.html,/gongxq0124/article/details/7681000

4.3 决策树方法

决策树实际上就是将空间利用超平面进行划分的一种方法,每次分割的时候都将当前的空间一分为二。比如对二维平面上的点进行分类,可构建如下的决策树(二叉树)

此时,对应的二维平面将被分成如下的形式,也即将空间中的点分成了四类。

从以上过程看出,决策树的构建过程中,关键是按照哪一个属性进行分裂,分裂的阈值如何确定。实际上决策树中分裂属性的选取和分裂阈值的确定是根据最大信息增益的原则确定的。

具体过程可参考:

https://www.360docs.net/doc/012047067.html,/bourneli/archive/2013/03/15/2961568.html

https://www.360docs.net/doc/012047067.html,/abcjennifer/article/details/20905311

5特征选择

(1)将图像规整化成相同大小,形成一个一维向量

(2)不变矩

参考文献:(1) Ming-kuei Hu. Visual pattern recognition by moment

invariants, IRE Transactions on information theory.

(2) Alreza Khotanzad, Yaw Hua Hong. Invariant image recognition by

Zernike moments, IEEE Transactions on Pattern Analysis and Machine

Intelligence, 12(5), 1990.

6参考资料和实用网站

(1)C++机器学习算法库

https://www.360docs.net/doc/012047067.html,/qll125596718/article/details/8253394

(2)杨少荣,吴迪靖,段德山译。机器视觉算法与应用,清华大学出版社,北京,2008.

(3)景丽译。图像处理与计算机视觉算法与应用,清华大学出版社,北京,2012.

(4)李锐,李鹏,曲亚东,王斌译。机器学习实战(Machine Learning in Action),人民邮电出版社,北京,2013.

手写字符识别系统设计

版本:V1.0 手写字符识别系统设计说明书 湖南大学信息科学与工程学院 二0一四年六月

目录 1引言 (2) 1.1目的 (2) 1.2阅读对象 (2) 2项目概述 (2) 2.1项目简介 (2) 2.2项目任务 (2) 2.3实验环境介绍 (2) 3任务描述 (3) 3.1背景资料概述 (3) 3.2系统组成 (3) 3.3系统评估 (5) 4机器学习算法介绍 (5) 4.1支持向量机 (5) 4.2BP神经网络 (6) 4.3决策树方法 (7) 5特征选择 (8) 6参考资料和实用网站 (9)

1引言 1.1目的 随着图像处理技术与机器学习技术的发展,机器视觉技术已广泛应用于工业生产、日常生活及城市管理中。字符识别作为机器视觉的一种基本应用,在车牌识别、光学字符识别(OCR,Optical Character Recognition)等应用中均有涉及。 本说明书旨在介绍基于常用机器学习算法(如BP神经网络、支持向量机、朴素贝叶斯、K近邻分类)的手写字符识别系统的设计需求,设计方法和环境介绍,帮助学生了解字符识别的基本流程,常用机器学习算法的基本原理,掌握机器视觉应用的开发技术。 1.2阅读对象 本说明书的阅读对象有: ●数字媒体类相关专业学生 ●相关客户人员,体验用户等 2项目概述 2.1项目简介 本项目旨在基于机器学习算法实现手写字符(包括数字和大小写字母)的识别。该系统通过读入一张图片或通过鼠标绘制字符的方式,实现识别对象的输入,通过BP神经网络、支持向量机、朴素贝叶斯或K近邻分类方法实现手写字符的识别,并输出识别的结果。 2.2项目任务 项目名称:手写字符识别系统的设计 项目内容:1)手写字符的输入; 2)图片预处理与特征提取; 3)机器学习与字符分类; 项目周期:1个月(2014年8月25日——2014年9月20日) 参与人数:2~4人。 2.3实验环境介绍 A)Visual Studio 2010

概要设计说明书题库管理系统

1引言 (2) 1.1编写目的 (2) 1.2背景 (2) 1.3定义 (2) 1.4参考资料 (2) 2总体设计 (3) 2.1需求规定 (3) 2.2运行环境 (4) 2.3基本设计概念和处理流程 (4) 2.4结构 (6) 2.5功能器求与程序的关系 (8) 2.6人工处理过程 (9) 2.7尚未问决的问题 (9) 3接口设计 (9) 3.1用户接口 (9) 3.2外部接口 (9) 3.3内部接口 (10) 4运行设计 (10) 4.1运行模块组合 (10) 4.2运行控制 (10) 4.3运行时间 (10) 5系统数据结构设计 (11) 5.1逻辑结构设计要点 (11) 5.2物理结构设计要点 (11) 5.3数据结构与程序的关系 (11) 6系统出错处理设计 (11) 6.1出错信息 (11) 6.2补救措施 (12) 6.3系统维护设计 (12)

概要设计说明书 1引言 1.1编写目的 说明编写这份概要设计说明书的目的,指出预期的读者。 概要设计说明书的目的:概要设计说明书又称系统设计说明书,这里所说的系统是指程序系统。编写该文档的目的在于明确整个系统的需求、对该项目进行总体设计、详细说明对程序系统的设计考虑(包括:程序系统的基本处理、流程、程序系统的组织结构、模块划分、功能分配、接口设计、运行设计、数据结构设计和出错处理设计等),为程序的详细设计提供基础。使系统开发人员和产品管理人员明确产品功能,可以有针对性的进行系统开发、测试、验收等各方面的工作。从该阶段开发正式进入软件的实际开发阶段,本阶段完成系统的大致设计并明确系统的数据结构与软件结构。在软件设计阶段主要是把一个软件需求转化为软件表示的过程,这种表示只是描绘出软件的总的概貌。而它的真正目的是进一步细化软件设计阶段得出的软件总体概貌,把它加工成在程序细节上非常接近于源程序的软件表示。 预期读者:项目开发人员、编程人员、软件维护人员、技术管理人员、执行软件质量保证计划的专门人员、参与本项目开发进程各阶段验证/确认以及负责最后项目验收人员、合作各方有关部门的负责人、项目组负责人和全体参加人员等 1.2背景 说明: a.待开发软件系统的名称:题库管理系统。 b.列出此项目的任务提出者、开发者、用户以及将运行该软件的计算站(中心)。 任务提出者:北京京胜世纪科技有限公司 开发者:天津职业大学电信学院软件技术2班,小组开发人员:边继红 用户:从事教育事业的教学教师以及在学学生等 运行该软件的计算站:天津职业大学电信学院 1.3定义 1.考试科目:对应教学计划中的课程名称 2.试题类型:包括客观题(单选、多选、判断、填空)和主观题(简答、论述)两大类 3.题目难度:主观上分为较难、一般、容易三种,,录入试题时由试题创建者确定; 4.难度系数:是衡量试题难易程度的客观指标,定义为正确率的倒数: 难度系数= 100 /正确率,初值设为2,以后通过考试结果由系统自动计算。 数值越大,说明错误率高,即难度越大。 5.用户类型:根据权限分为:管理员、任课教师、学生三种角色

基于知识库的手写体数字识别

HUNAN UNIVERSITY 课程模式识别 题目基于知识库的手写体数字识别学生姓名 学生学号

专业班级 学院名称 2016 年6 月25 日

基于知识库的手写体数字识别 1案例背景: 手写体数字识别是图像识别学科下的一个分支,是图像处理和模式识别研究领域的重要应用之一,并且具有很强的通用性。由于手写数字的随意性很大,如笔画粗细、字体大小、倾斜角度等因素都有可能直接影响到字符的识别准确率,所以手写体数字识别是一个很有挑战性的课题。在过去的数十年中,研究者们提出了许多识别方法,并取得了一定的成果。在大规模数据统计如例行年检、人口普查、财务、税务、邮件分拣等应用领域都有广阔的应用前景。 本案例实现了手写阿拉伯数字的识别过程,并对手写数字识别的基于统计的方法进行了简要介绍和分析。本文实现的手写字体识别程序具有手写数字图像读取、特征提取、数字模板特征库以及识别功能。 2 理论基础: 2-1手写字体识别方法: 手写体数字识别是一个跨学科的复杂问题,综合了图像处理、模式识别、机器学习等多个领域的知识,其识别过程一般包含图像预处理、特征提取、分类器的设定及其后处理等组成。处理流程如图2-1所示。

图2-1 手写体数子识别流程图 2-2 图像预处理 手写体数字识别的首要工作是图像预处理。在图像预处理过程中需要解决的主要问题有:定位、图像二值化、平滑化(去噪)H J、字符切分、规范化等。图像二值化是指将整个图像呈现出明显的黑白效果。待识别的手写体数字图像在扫描过程中,常会带来一些噪声,用不同的扫描分辨率得到的数字图像,其质量也各不相同,故而要先将这些干扰因素排除掉。另外,还需要正确分割整幅文档图像中的手写体数字,而分割后的数字大小、字体常各不相同,故还需进行归一化处理。 2-3 特征提取 特征提取的目的是从经过预处理后的数字图像中,提取出用以区分与其它数字类别的本质属性并数值化,形成特征矢量的过程。常见的手写体数字特征有:模板特征、统计特征、结构特征和变换特征。 2-4 分类器 不同的分类方式对应不同的分类器,可选的分类器有神经网络、支持向量机

题库管理系统设计文档

(此文档为word格式,下载后您可任意编辑修改!) 华南农业大学 软件开发技术实践 课程设计实验报告 小组成员: 教师:林毅申 提交日期: 2013年11月30日

华南农业大学信息学院 课程设计

1、基本信息 1.1 小组基本信息 1.2 项目基本信息 这次我们小组开发的是一个面向一所大学内的任课老师以及在校学生的题库管理系统。作为数字化校园的一部分,该系统的主要的功能包括为教师用户提供的查阅题库,新组试卷功能和面向学生的在线考试功能。题库分为两部分,一部分是之前教师利用组卷功能得到并保存的试卷,一部分是不同类型的题目。题目范围为学校内各门课程期末考试的试题,包括公共基础课以及各学院开设的不同课程。题目不仅包括普通的文字类题目,还包括一些包含复杂元素如图片,特殊公式等的题目,做到基本兼容现在学校内能看到的题目。 考虑到小组成员的技术水平以及项目的实际需要,该系统是采用C/S模式。为提高效能,服务器方面采用IOCP模型,客户端采用WPF技术来改善Winform在界面上的劣势。 1.3 项目技术信息

2、系统架构图 注:实线表示数据传输方向,虚线表示模块间调用关系,由被调用者指向调用者 服务器程序: 数据加密模块: 采用一种加密算法,(具体哪种算法等系统实现时,再进行确定),将即将发送的数据进行加密。保证数据再传输过程中的安全性。与客户端中的数据加密模块原理一样。 数据解密模块: 采用与加密算法相对应的解密算法,将接受到数据,进行解密,还原得到原始的数据。与客户端中的数据解密模块原理一样。 消息队列: 为了能实现同时让尽量多的客户连接到服务器,所以不使用一线程处理一客户模型的服务器。这里的消息队列是将所有用户对服务器的各种请求按照先进先出的规则排列起来。等待处理。如果实现是使用windows io完成端口和对应的SOCKET进行绑定,这个消息队列是由系统生成和维护的。 工作者线程池: 线程池用于维护和管理服务器中所有以工作者身份存在的线程,工作者线程就是用来处理客户请求的线程。线程池的线程会互斥的到消息队列中取出对应的客户请求进行处理。没有请求时候,所有线程都处于阻塞状态等待消息队列中出现客户请求。当工作者线程获得客户请求的时候会按顺序去调用数据解密模块,数据传输格式解析模块,业务逻辑处理模块,加密发送数据模块。 数据传输格式解析模块: 数据在网络传输的过程中,我们给它规定特定的格式。通过该模块,服务器可以清楚的知道,客户需要服务器为他实现哪些功能。但是这里解析的数据需要通过解密之后,才能解析。对应的客户端想要与服务器进行交互,就需要使用这个特定的格式发送数据。 业务逻辑处理模块: 这个模块就是服务器具体工作的模块,模块中包含服务器能够为客户端提供的所有服务。工作者线程通过解析数据格式,知道客户的需求,再从这个模块中调用指定的服务。这个模块也是直接和数据库进行交互的模块。 数据发送加密模块: 业务逻辑模块处理完客户的请求的服务之后,需要为客户返回处理后的结果。可能是简单的操作成功和失败的返回结果,也可能是直接数据的传输。和加密模块结合在一起,说明数据发送前需要进行加密。 数据库模块: 采用sql server做数据库管理,https://www.360docs.net/doc/012047067.html,技术实现面向业务层的接口。

(完整版)手写体数字识别系统设计毕业设计

石河子大学 信息科学与技术学院毕业论文 课题名称:手写体数字识别系统设计 学生姓名: 学号: 学院:信息科学与技术学院

专业年级:电子信息工程2007级指导教师: 职称: 完成日期:二○一一年六月十一日

手写体数字识别系统设计 学生: 指导教师: [摘要] 随着科学技术的迅速发展,在邮政编码、统计报表、财务报表、银行票据等处理大量字符信息录入的场合,手写数字识别系统的应用需求越来越强烈,如何将数字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问题。本文设计实现了一个基于Matlab软件的手写体数字识别系统,采用模块化设计方法,编写了摄像头输入、直接读取图片、写字板输入三个模块,利用摄像头等工具,将以文本形式存在的手写体数字输入进计算机,完成对手写体数字图片的采集,并设计了一种手写数字识别方法,对手写体数字图像进行预处理、结构特征提取、分类识别,最终以文本形式输出数字,从而实现手写体数字的识别。 [关键词] 预处理,结构特征提取,分类识别,手写体数字识别

Handwritten Digit Recognition System Students: Teacher:

Abstract:With the rapid development of science and technology, in zip code, statistics, reports, financial statements, Bank bills dealing with a large number of characters, such as information recorded occasions, handwritten digit recognition system of requirement has become stronger and stronger, how easily and quickly the number entered in the computer has become a key issue relates to the popularization of computer technology. This article design implementation has a based on Matlab software of handwriting body digital recognition system, used module of design method, write has camera entered, and directly read pictures, and write Board entered three a module, using camera, tools, will to text form exists of handwriting body digital entered into computer, completed on handwriting body digital pictures of collection, and design has a handwriting digital recognition method, on handwriting body digital image for pretreatment, and structure features extraction, and classification recognition, eventually to text form output digital, to implementation handwriting body digital of recognition. Key words: Pretreatment, structure feature extraction, classification and recognition, handwritten digit recognition.

试题管理系统UML系统分析与设计

《信息系统分析与设计》课程设计报告 班级:信管1002 姓名: 学号:

试题管理系统 课程设计要求: 1、应画出该系统的完整用例图。 2、给出负责模块的用例的详细事件流描述。 3、从用例的事件流描述中获取候选的实体类,确定类之间的关系 并画出正确的类图。 4、画出用例的顺序图以及协作图。 5、根据用例的事件流描述,画出用例的活动图。 6、根据类图,画出类的状态图。 7、最后给出系统的构件图、部署图。 8、具有完整清晰的设计流程。 9、各图布局合理、美观。 10、提供完整的课程设计说明书。 课程设计说明书的正文应包含以下几部分: 1、封面; 2、系统分析:给出详细分析过程; 3、系统设计:给出系统的UML图; 4、遇到的问题及解决方案。 摘要 传统的试题管理方法因受到时间、空间和管理维护等因素的限制, 已很难适应

现代信息社会教育教学发展的需求。随着计算机技术、网络技术和数据库技术的成 熟与稳定以及全国各高校校园网的建立和教育教学管理信息化程度的不断提高, 试 题管理系统获得了前所未有的发展前景与强大的技术支持。因此, 教学管理者希望 有一个集试卷分类、试卷管理、试题管理等功能于一体的网络试题库管理系统, 以 提高管理效率。而利用计算机自动生成试卷,并通过积累逐步形成有效试题库,使 试题和试卷的管理高效便捷,同时也使教学方式和考试方式有更多选择。这对提高 教学效率,有效利用资源和使传统的教学方式逐步走向自动化具有重要作用。 所开发的系统提供了试卷分类、试卷管理、试题管理及试卷生成等功能,为教师提 供了一个功能强大的平台,通过这个平台教师可以根据实际教学情况来组成相应的 试题与试卷,并轻松的管理试题库与试卷库,在实际应用中可以有效减轻教师的工 作量。 关键词:试题管理;试卷管理;UML;信息系统分析 目录 一、试题库管理系统的调查及初步分析 (2) (一)试题库管理系统的开发背景 (2) (二)试题库管理系统的需求分析 (3)

手写体数字的识别

手写体数字识别 第一章绪论 (4) 1.1课题研究的意义 (4) 1.2国内外究动态目前水平 (4) 1.3手写体数字识别简介 (5) 1.4识别的技术难点 (5) 1.5主要研究工作 (6) 第二章手写体数字识别基本过程: (6) 2.1手写体数字识别系统结构 (6) 2.2分类器设计 (7) 2.2.1 特征空间优化设计问题 (7) 2.2.2分类器设计准则 (8) 2.2.3分类器设计基本方法 (9) 3.4 判别函数 (9) 3.5训练与学习 (10) 第三章贝叶斯方法应用于手写体数字识别 (11) 3.1贝叶斯由来 (11) 3.2贝叶斯公式 (11) 3.3贝叶斯公式Bayes决策理论: (12) 3.4贝叶斯应用于的手写体数字理论部分: (16) 3.4.1.特征描述: (16) 3.4.2最小错误分类器进行判别分类 (17) 第四章手写体数字识别的设计流程及功能的具体实现 (18) 4.1 手写体数字识别的流程图 (18) 4.2具体功能实现方法如下: (19) 结束语 (25) 致谢词 (25) 参考文献 (26) 附录 (27)

摘要 数字识别就是通过计算机用数学技术方法来研究模式的自动处理和识别。随着计算机技术的发展,人类对模式识别技术提出了更高的要求。特别是对于大量己有的印刷资料和手稿,计算机自动识别输入己成为必须研究的课题,所以数字识别在文献检索、办公自动化、邮政系统、银行票据处理等方面有着广阔的应用前景。 对手写数字进行识别,首先将汉字图像进行处理,抽取主要表达特征并将特征与数字的代码存储在计算机中,这一过程叫做“训练”。识别过程就是将输入的数字图像经处理后与计算机中的所有字进行比较,找出最相近的字就是识别结果。 本文主要介绍了数字识别的基本原理和手写的10个数字字符的识别系统的设计实现过程。第一章介绍了数字识别学科的发展状况。第二章手写体数字识别基本过程。第三章贝叶斯方法应用于手写体数字识别。第四章手写体数字识别的设计流程及功能的具体实现,并对实验结果做出简单的分析。 关键词:手写体数字识别分类器贝叶斯vc++6.0 错误!未找到引用源。

简单题库管理系统设计

简单题库管理系统设计一 1. 数据库dxjsj.mdb 结构(由9张表组成 ) 2. 表结构(这里列出选择题、填充题、知识点3张表 ) 3. 数据存放目录结构 4.管理程序菜单功能 标准答案文件夹 存放数据库的文件夹 设计操作题素材文件夹 OS 操作题素材文件夹 操作结果样例文件夹

试题维护包括不同题型的处理界面 知识点、OS操作类型、设计操作类型处理界面

(1)设计涉及到多个窗体,需要通过下图所示操作加入新窗体,结果如右图所示。 添加新窗体结果(需要修改窗体文件名) 其中,testm为主窗体(设计时第一个建立的窗体),应用程序的主入口,提供菜单功能,菜单建立使用menuStrip控件。 (2) 窗体的打开(以单选题为例) Form fdxt = new fdxt(); fdxt.MdiParent = this; //作为主窗体testm的子窗体 fdxt.Show(); 窗体的关闭使用命令:this.Close(); 注意:应用程序的关闭退出使用命令:Application.Exit(); (3) 窗体之间共用的变量

先定义一个private/public的类,然后在类中声明一个static public属性的变量,可以在类中初始化或第一次使用之前初始化。使用“类名.变量名”形式引用。 根据本例的数据存放目录结构,需要获得程序的运行路径,可在主窗体testm的外面定义一个类,本例的类名为mv,如下所示。 namespace jsjtest { public partial class testm : Form { 主窗体testm中的代码 } 定义一个窗体之间共用的变量mpath public class mv { public static string mpath = Application.StartupPath; //获得程序的运行路径 } } 在其他窗体内使用变量mpath的方法: string connStr = "Provider = Microsoft.Jet.OleDB.4.0;Data Source=" + mv.mpath + "\\db\\dxjsj.mdb"; 5. 具体设计: (1)新建一个解决方案jsjtest.sln,将Form1窗体命名为testm,使用menuStrip控件建立菜单。需要引用using System.Data.OleDb; (2)添加新窗体,命名为zsd,用于知识点的数据管理。设置窗体标题为“知识点设置”。 按图所示,在知识点窗体添加网格控件,文本框,命令按钮、标签等,其中 用于导航,label4显示记录号。设置网格的AutoSizeColumnMode属性为Fill,可调整列宽。 在知识点窗体也需要引用using System.Data.OleDb; 声明全局变量: string connStr = "Provider = Microsoft.Jet.OleDB.4.0;Data Source=" + mv.mpath + "\\db\\dxjsj.mdb"; OleDbConnection conn; // 连接对象 OleDbDataAdapter da ; // 适配器对象

试题库管理系统的设计与实现

河北科技大学继续教育学院 毕业论文 学生姓名:孙田田学号:1033994院站:河北科技大学继续教育学院计世教学部学习形式:业余层次:专科 专业:软件技术 题目:某高校试题库管理系统的设计与实现指导教师: 评阅教师: 二○一一年十二月

毕业论文题目 某高校试题库管理系统的设计与实现 总计毕业论文24页 表格18表 插5图

摘要

目录 1绪论 (1) 课题背景及意义 (1) 国内外研究现状、水平和发展趋势 (1) 研究目标及研究内容 (2) 2可行性分析 (4) 技术可行性 (4) 经济可行性 (4) 3系统的需求分析和总体设计 (5) 需求分析 (5) 总体设计 (5) 4系统详细设计 (6) 普通考试的标准化 (6) 本系统的业务流程图 (6) 数据流程图 (8) .数据字典 (9) 5 系统测试 (13) 系统功能结构设计: (13) 输入输出设计 (13) 试卷管理 (15) 、系统初始化 (15) 总结 (18) 致辞 (19) 参考文献 (20)

1绪论 课题背景及意义 试题库管理系统产生的背景:在教育、教学现代化建设中,教、考信息化是最重要的主体工程。而在针对考试管理的信息化建设中,试题库建设就是最基础的的工程。如果没有试题库管理系统软件的支持,试题库的建设与试题资源的形成将没有可能。在整个教学考试的信息化管理中,试题库建设将起到重要的基础性的角色作用。可以这样认为,试题库管理系统是网络考试系统及考试评定系统(改卷评分系统)的支撑平台。如果没有这个平台,或者这个平台搭建的不好,则往后的组卷、考试、评定等一系列工作都会受到影响。而采用计算机作为工具是使用计算机的智能化管理程序来帮助前台管理员进行更有效的考试管理工作。试题库的管理,特别是学校的试题库具有数量大、种类多的特点,常规管理有工作量大、查询困难、不易更新的缺点,试题库管理系统可对试题实行科学管理,利用现代电脑功能强大、运算速度快的优点,对试题进行集中、有序、有效的管理,更新方便、查询快捷、组卷灵活还可在组卷结束后通过打印机直接打印成卷或直接在计算机上考试,大大降低了劳动强度。在计算机还未普及之前学生考试的试卷都是由教师或工作人员人工管理,出题来组成试卷的方法来操作的。现在一般的高校管理都拥有实施计算机考试系统的硬件条件,完全可以采用计算机智能化管理,方便师生,提高教师工作效率,节约纸张的使用,符合我国的现代化发展方向。 意义:试题库管理系统可以为学校教师举行考试提供方便与快捷的方式,拥有与真实考试同样的题型、组卷等功能。其开发内容主要包括后台数据库的建立和维护以及前端应用程序的开发两个方面。提高教职员工的工作效率和工作质量,减轻其工作压力。也有很多软件科技公司致力于试题库管理系统的研究开发,作为一种商业系工具。 国内外研究现状、水平和发展趋势 随着经济的发展,社会的进步,科学技术的不断提高,计算机科学日渐成熟,计算机越来越深入到我们日常的学习、工作及生活中,成为我们不可缺少的的辅助工具。其强大的功能已为人们深刻认识,它已进入人类社会的各个领域,比如文字处理、信息管理、辅助设计、图形图像处理、教育培训以及游戏娱乐等,并发挥着越来越重要的作用,各行各业的人们无须经过特别的训练就能够使用电脑完成许许

手写体数字识别系统的设计与实现

大学生研究计划项目 论文报告 项目名称:_手写体数字识别系统的设计与实现 负责人:_________ _______________ 学院/专业:_____ ______ 学号:____ ________ 申请经费:_____ _________________ 指导教师:______ _______ 项目起止时间:2011年6月-2012年3月

摘要 手写体数字识别系统依托计算机应用软件为载体,利用C++程序设计的相关知识,运用模块设计等相关技术,最终完成手写体设计系统的程序综合设计。 关键字:手写体数字处理模式识别程序设计 一、论题概述 模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机器来实现人(及某些动物)对事物的学习、识别和判断能力,因而受到了很多科技领域研究人员的注意,成为人工智能研究的一个重要方面。 字符识别是模式识别的一个传统研究领域。从50年代开始,许多的研究者就在这一研究领域开展了广泛的探索,并为模式识别的发展产生了积极的影响。 字符识别一般可以分为两类:1.联机字符识别;2.光学字符识别(Optical Chara- cter Recognition,OCR)或称离线字符识别。在联机字符识别中,计算机能够通过与计算机相连的输入设备获得输入字符笔划的顺序、笔划的方向以及字符的形状,所以相对OCR来说它更容易识别一些。但联机字符识别有一个重要的不足就是要求输入者必须在指定的设备上书写,然而人们在生活中大部分的书写情况是不满足这一要求的,比如人们填写各种表格资料,开具支票等。如果需要计算机去认识这些己经成为文字的东西,就需要OCR技术。比起联机字符识别来,OCR不要求书写者在特定输入设备上书写,它可以与平常一样书写,所以OCR 的应用更为广泛。OCR所使用的输入设备可以是任何一种图像采集设备,如CCD、扫描仪、数字相机等。通过使用这类采集设备,OCR系统将书写者已写好的文字作为图像输入到计算机中,然后由计算机去识别。由于OCR的输入只是简单的一副图像,它就不能像联机输入那样比较容易的从物理特性上获得字符笔划的顺序信息,因此OCR是一个更具挑战性的问题。 数字识别是多年来的研究热点,也是字符识别中的一个特别问题,它是本文研究的重点。数字识别在特定的环境下应用特别广泛,如邮政编码自动识别系统,税表和银行支票自动处理系统等。一般情况下,当涉及到数字识别时,人们往往要求识别器有很高的识别可靠性,特别是有关金额的数字识别时,如支票中填写

答辩稿-软件工程试题库管理系统的设计与实现

答辩稿范例

软件工程试题库管理系统的设计与实现

开发背景 随着我国国民经济的飞速发展,电子计算机和通信技术的发展,人类已经逐渐地进入信息化社会。信息和材料、能源一样成为一种社会的基本生产资料,在人类的社会生产活动中发挥着重要的作用。同时人们对信息和数据的利用与处理也已进入自动化、网络化和社会化的阶段,因此,开发相关的管理信息系统已经成为各行各业的必要和必需了

开发意义 试题库建设是教育现代化的需要,是教考分离、最大限度提高办学效益、实行标准化考试的需要,也是课程建设的一个重要组成部分。用试题库进行考试是命题方式的重要改革,是实现由传统人工命题到采用计算机随机命题的根本性转变。现代化的考试方法、考试手段,具有无比的优越性和强大的生命力,是教育现代化不可或缺的组成部分。 由于从组织出卷到试卷的印制及试卷的管理等工作非常繁琐,工作量很大,而且试卷的标准化程度、难易程度、题量大小等各方面难以控制。因此,本课题组针对试题本身内容、试题管理方面,对试题的设计和试题库的运行机制进行研究,利用计算机进行试卷的自动生成并逐步积累形成有效的试题库,这不仅克服了个人命题中容易出现的片面性、随意性,而且要保证组卷客观性和科学性,对试题和试卷的管理将变得高效而便捷,对提高工作效率,使试卷管理逐步走向正规化、自动化,并进而实现课程管理的现代化,将起到十分重要的作用。

系统功能描述 软件工程试题库管理系统根据实际使用对象,共分三个角色:管理员、教师和学生。主要划分为四个功能:个人信息管理功能、试题管理功能、试卷生成功能和信息查询功能。其中的关键是试题管理功能和组卷功能的设计。

手写数字识别实践指导手册

手写数字系统实践指导手册 1 问题描述 设计一个简单的手写数字识别系统,能够识别手写输入的数字1-9并且能够识别选中的文本文件中的数字,应具有简单方便的操作界面,输入输出等。 1.1功能需求分析 通过分析,以及从用户的角度考虑,系统应该具有以下功能: (1)数字的手写输入。作为一个手写数字识别系统,首先应该能够让用户过绘制窗口进行数字绘制,系统得到用户的手写输入进行处理。 (2)直接选择文件。用户还可以选择系统中的文本文件进行处理。 (3)数据预处理。包括计算数据大小、二值化、格式化处理等。 (4)数字提取。将经过二值化后的图像中的个数字区域进行提取,只有能够将数字进行准确的提取,才能将其一一识别。 (5)基准库的选择与建立。选择一个可供系统训练和测试的样本库非常重要,本系统的训练集和测试集选择的是《机器学习实战》中所给的数据。 (6)识别数字。经过训练集进行训练后,使用knn算法对需要识别的数字识别。 2 数据集获取 ●任务要求: 从网上爬取或者下载适合进行手写数字识别系统的训练集和测试集 ●实践指导: 方式一:自己从网上找适合的数据下载 方式二:推荐数据集:“手写数字数据集的光学识别”一文中的数据集合,该文登载与2010年10月3日的UCI机器学习资料库中https://www.360docs.net/doc/012047067.html,/ml

3 功能设计与实现 3.1手写数字识别系统结构图: 图一:系统结构图 3.2识别用户选择手选文件功能设计与实现 ●任务要求: 用户可以自己从电脑中选择文本文件进行识别。 ●实践指导: KNN分类器的构造思路及原理如下: 1)选择训练集和测试集。系统所采用的数据集选用的是“手写数字数据集的光学识别”一文中的数据集合。0-9每个数字大约有200个训练数据20个测试数据。数字的文本格式如图所示。

脱机手写体汉字识别综述

脱机手写体汉字识别综述 赵继印1,郑蕊蕊2,吴宝春1,李 敏1 (1.大连民族学院机电信息工程学院,辽宁大连116600;2.吉林大学通信工程学院,吉林长春130025) 摘 要: 脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别 的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展. 关键词: 脱机手写体汉字识别;字符分割;特征提取;分类器设计;汉字识别数据库中图分类号: TP39114 文献标识码: A 文章编号: 037222112(2010)022******* A Review of Off 2Line Handwritten Chine se Character Recognition ZH AO Ji 2yin 1,ZHE NG Rui 2rui 2,W U Bao 2chun 1,LI Min 1 (1.College o f Electormechanical and Information Engineering ,Dalian Nationalities Univer sity ,Dalian ,Liaoning 116600,China ; 2.College o f Communication Engineering ,Jilin Univer sity ,Changchun ,Jilin 130025,China ) Abstract : Off 2line handwritten Chinese character recognition is one of the most challenging problems in pattern recognition field.This paper analyzed the latest developments of off 2line handwritten Chinese character recognition in recent years.Main meth 2ods of the key technologies such as Chinese characters segmentation ,feature extraction and classifier design were discussed.This pa 2per also introduced 3typical off 2line handwritten Chinese character recognition databases.Finally ,remain difficult issues and future trends of off 2line handwritten Chinese character recognition were proposed.This paper will guide researchers in this field and pro 2mote development of off 2line handwritten Chinese character recognition technology. K ey words : off 2line handwritten Chinese character Recognition ;characters segmentation ;feature extraction ;classifier design ;Chinese recognition database 1 引言 汉字识别是模式识别的一个重要分支,也是文字识 别领域最为困难的问题之一,它涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值[1].汉字识别技术可分为印刷体和手写体汉字识别两大类.手写体汉字识别又可分为联机(on 2line )和脱机(off 2line )手写体汉字识别.脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示. 清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品[2].目前,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%~99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求. 目前脱机手写体汉字识别仍处于实验室研究阶 段,成功的商业产品仍未发布[2~4].本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴. 2 手写汉字字体特点 从识别的角度分析,汉字具有如下4个特点.2.1 汉字类别多 汉字的个数很多,国家标准G B1803022000《信息交换用汉字编码字符集基本集的扩充》收录27484个汉字[5].汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题. 收稿日期:2009202216;修回日期:2009206213 基金项目:大连民族学院科研基金(N o.20086201);吉林省科技厅科技引导计划(N o.20090511)   第2期2010年2月 电 子 学 报 ACT A E LECTRONICA SINICA V ol.38 N o.2 Feb. 2010

基于知识库的手写体数字识别

HUNAN UNIVERSITY 2016 年6 月 25 日 课程 模式识别 题 目 基于知识库的手写体数字识别 学生姓名 学生学号 专业班级 学 院 名 称

基于知识库的手写体数字识别 1案例背景: 手写体数字识别是图像识别学科下的一个分支,是图像处理和模式识别研究领域的重要应用之一,并且具有很强的通用性。由于手写数字的随意性很大,如笔画粗细、字体大小、倾斜角度等因素都有可能直接影响到字符的识别准确率,所以手写体数字识别是一个很有挑战性的课题。在过去的数十年中,研究者们提出了许多识别方法,并取得了一定的成果。在大规模数据统计如例行年检、人口普查、财务、税务、邮件分拣等应用领域都有广阔的应用前景。 本案例实现了手写阿拉伯数字的识别过程,并对手写数字识别的基于统计的方法进行了简要介绍和分析。本文实现的手写字体识别程序具有手写数字图像读取、特征提取、数字模板特征库以及识别功能。 2 理论基础: 2-1手写字体识别方法: 手写体数字识别是一个跨学科的复杂问题,综合了图像处理、模式识别、机器学习等多个领域的知识,其识别过程一般包含图像预处理、特征提取、分类器的设定及其后处理等组成。处理流程如图2-1所示。 图2-1 手写体数子识别流程图 2-2 图像预处理 手写体数字识别的首要工作是图像预处理。在图像预处理过程中需要解决的主要问题有:定位、图像二值化、平滑化(去噪)H J、字符切分、规范化等。图像二值化是指将整个图像呈现出明显的黑白效果。待识别的手写体数字图像在扫描过程中,常会带来一些噪声,用不同的扫描分辨率得到的数字图像,其质量也各不相同,故而要先将这些干扰因素排除掉。另外,还需要正确分割整幅文档图像中的手写体数字,而分割后的数字大小、字体常各不相同,故还需进行归一化处理。 2-3 特征提取 特征提取的目的是从经过预处理后的数字图像中,提取出用以区分与其它数字类别的本质属性并数值化,形成特征矢量的过程。常见的手写体数字特征有:模板特征、统计特征、结构特征和变换特征。

数据库课程设计-试题库管理系统

《数据库系统概论》课程设计 实验报告 题目试题库管理系统 学院商学院 专业信息管理与信息系 班级信息101 学号 2 学生姓名杨贵文 同组成员周杭施建炉王于宾 指导教师宣军英 编写日期2012-06-19——2012-06-29

一、课题名称:试题库管理系统 二、课题要求:结合所学知识,开发一个简易的试题库管理系统。 三、实验目的:结合本学期所学知识,使学生温故而知新,并在实践操作上增加对数据库系统设计的认识和理解。 四、实验步骤: 五、1、需求分析 2、概念结构设计 3、逻辑结构设计 4、物理结构设计 5、数据库实施 6、数据库运行和维护 六、课程开发内容: 5.1 需求分析 5.1.1 系统调查 对现行的试题库管理业务进行了详细的调查和研究是了解系统需求和进行系统分析和设计的重要基础工作,因此要对我们的试题库管理工作进行全面的细致的调查研究。首先与相关的老师进行了交流和沟通,了解他们对试题库管理的看法,看看有没有什么新的要求,在这个基础上,结合自身所掌握的知识水平,量力而行开发相应的试题库管理系统。

在调查中我们可以发现,高校的试题库是极其庞大的,如果没有一个智能的系统将人们从手工阶段解放出来,那么一个庞大的、完整的试题库是无法有效运行的,甚至出题的老师也无法有效、准确地在试题库中抽取自己所需要的试题,这等于说是一个没有实际运用价值的试题库。所以说,他们对希望有这样的一个可以详细地表示试题属性的这样的一个试题库。那么今天我们就围绕着这样的一个目标展开我们的工作。 5.1.2 用户需求 要设计一个性能良好的管理系统,明确用户的应用环境对 系统的要求是首要的和基本的。本系统从以下四个方面对用户需求进行了分析: 1)用户的需求信息:出题老师可以看到题目所属的类型和题目所考察的内容以及试题的分值和 难度等级。当然这个权限也给管理员和系主任。 2)用户的处理要求:管理员可以对试题库进行插入和删除操作,出题老师可以凭借自己自定义的 选题要求在试题库中选择自己需求的试题,这个权限 也对系主任开放。 3)对系统的适应性、通用性要求:要求系统不仅能提供一门课程的试题库管理,还要综合多么学 科进行管理,建立一个高效的试题库管理系统。

手写数字识别的原理及应用

手写数字识别的原理及应用 林晓帆丁晓青吴佑寿 一、引言 手写数字识别(Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。 在整个OCR领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决方案。 二、研究的实际背景 字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。 三、研究的理论意义 手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值: 1.阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨,比较各种研究方法。 2.由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这方面最明显的例子就是人工神经网络(ANN)------相当一部分的ANN模型和算法都以手写数字识别作为具体的实验平台,验证理论的有效性,评价各种方法的优缺点。 3.尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问题(Open problem)。

相关文档
最新文档