基于Kinect深度信息的手指检测与手势识别

基于Kinect深度信息的手指检测与手势识别
基于Kinect深度信息的手指检测与手势识别

Transactions on Computer Science and Technology

March 2014, Volume 3, Issue 1, PP.9-14 Fingertip Detection and Gesture Recognition Based on KinectDepth Data

Binjue Zheng#, Liaoyin Zhao, Yixuan Wang

Institute of Computer Application Technology, Hangzhou Dianzi University, Hangzhou Zhejiang 310018, China

#Email:zheng0211@https://www.360docs.net/doc/0b12604199.html,

Abstract

Vision-based gesture recognition is a key technique to achieve a new generation of human-computer interaction. This paper proposes a research program for fingertip detection and gesture recognition using depth information. The depth information of an image is captured using Microsoft access sensors, and threshold segmentation combined with the k-means clustering algorithm is used to obtain the hand image. The shape of the hand external convex hull detection combined with hand external contour detection is used to determine the fingertip. Vectors between each of the fingertips and the palm as well as the relative position of the relationship between the fingers are used for finger recognition. The finger gesture recognition of digital signal of 1~5 is conducted through the classification. The experimental results show that the research scheme can accurately detect finger, and hand gestures recognition rate is more than 95%.

Keywords: Hand Gesture Recognition; Fingertip Detection; Human-computer Interaction; Depth Data

基于Kinect深度信息的手指检测与手势识别*

郑斌珏,赵辽英,王毅轩

杭州电子科技大学计算机应用研究所,浙江杭州310018

摘要:基于视觉的手势识别是实现新一代人机交互的关键技术。本文提出了一种使用深度信息进行手指检测和手势识

别的研究方案。利用微软Kinect传感器获取图像深度信息,通过阈值分割和K-均值聚类算法获取手部图像。手型外部凸

包检测结合手部外部轮廓检测实现指尖的确定,根据每个指尖到掌心的矢量和手指间的相对位置关系实现手指识别,通

过手指的分类实现对数字手势1~5的手势识别。实验结果表明,该研究方案能准确检测手指,手势识别率超过95%。

关键词:手势识别;指尖检测;人机交互;深度信息

引言

随着计算机技术的发展,人们对人机交互有了更高层次的要求。相比较鼠标,键盘等接触式的操作方式,自然而直观的手势更符合人的自然行为,是新一代人机交互的主要方法,在虚拟现实、远程控制和交通等领域逐渐得到应用[1]。自动手势识别成为近年来的一个研究热点[2-4]。

手势识别的初期研究主要集中在机器设备上,例如数据手套,即一个类似手套的传感器。计算机通过它可以获取手部各关节数据。该方法虽能精确的识别手势,但是设备昂贵且掩盖了手势自然的表达方式[5]。为此,学者们提出了基于视觉的手势识别方法。目前研究的手势识别系统主要分为基于RGB图像和基于深度图像。其中前者研究时间比较长,方法众多,但依然没有一个很好的方法解决问题。与RGB图像相比,深度图像具有物体三维特征信息,即深度信息。由于深度图像不受光源照射方向及物体表面的发射特性的影响,而且不存在阴影,不受颜色相近信号影响,所以可以更准确地识别手势。

*国家基金资助(61171152), 浙江省自然科学基金项目资助(LY13F020044)

2010年微软推出了用于Xbox360的体感外设3D摄像机Kinect[6],而且还提供了支持硬件的软件开发包和应用程序开发接口。Kinect功能强大且相对廉价,研究者广泛采用它获取深度信息。

目前基于Kinect深度信息的手势识别方法主要有两类。一类是基于骨架识别获取手势位置[7]进而识别手势。这类方法使用Kinect SDK 时必须要在摄像头全身可见的条件下才能进行较为准确的识别。另一类是深度信息转换为2D信息[8],通过支持向量机训练后识别。这类方法需要构造训练样本,并且不能识别手指。郭康德等人[9]提出一种基于视觉技术的手指识别,这种方法能跟踪指尖但没有涉及手势识别。

利用深度图像不受肤色的影响的特点,本文提出了一种基于Kinect深度信息检测手指,不需要特征提取和训练,快速实现手势识别的方法。

1手势提取

1.1计算实际深度

Kinect获得的深度数据以像素为单位记录。在进行手势识别时需要根据实际距离的大小进行距离判定,Kinect返回的深度值不是实际距离,而是一个相对数据。故首先要把以像素为单位的数据转换成以实际距离为单位的数据。设Kinect返回的的某一点深度值为d raw,根据Kinect的校准过程,可求得相应的实际距离深度值为

(1)其中:K = 0.1236 m,O = 0.037 m。

根据实际距离深度值,可求得像素位置为( i,j,d)的实际位置( x,y,z) ,其转换式

(2)

其中:s = 0.0021。

1.2 基于阈值分割获取手部图像

获得实际深度数据后,遍历深度矩阵的每个值,获取距离最小值。根据一般做手势的时候,手部在整个身体最前面且与身体有一定距离。所以在最小值的基础上加上一个固定的值作为阈值。这种方法的好处是,距离范围不固定,当手的距离变化时,获取数据的范围也会动态变化。图1给出了基于阈值分割获取的手部图像。

图1基于阈值分割获取的手部图像

1.3 基于聚类算法区分左右手

基于阈值的分割技术只能把手势从背景中分割出来,不能区分两只手。k均值算法根据像素在2D空间的位置,把所有像素划分为两个聚类中心,初始化k为2。每个聚类区域代表一只手。然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数

已经收敛。

在每个手部的像素点划分好后,如果在两只手的中心距离小于提前定义的一个值,两个聚类将合并成一个。图2给出了经过K均值聚类算法判断的左右手,两只手用不同的颜色表示。

图2经过K均值聚类算法判断左右手结果

2手指检测

2.1凸包算法

在做手势的时候,手指经常远离手掌中心,而且指尖离的最远。根据这个情况建立数学模型。因为凸包包含指尖的点,基于Graham's Scan 算法[10]找到手型外部的凸包。具体过程如下:

首先选取基点。在手部图像中选取y坐标最小的一点H,当作基点。如果存在多个点的y坐标都为最小值,则选取x坐标最小的一点。排除坐标相同的点。如图3中,y坐标最小点H为基点。

图3凸包算法中基点示意图

然后按照其它各点和基点构成的向量与x轴的夹角进行排序。当加入一点时,必须考虑到前面的线段是否会出现在凸包上。从基点开始,凸包上每条相邻的线段的旋转方向应该一致,并与扫描的方向相反。如果发现新加的点使得新线段与上线段的旋转方向发生变化,则可判定上一点必然不在凸包上。按照上述步骤进行扫描,直到点集中所有的点都遍历完成,即得到凸包。如图4所示,与相邻的和旋转方向不一致,被判定不在凸包上,与相邻的线段旋转方向都一样,因此在凸包上。

图4凸包算法中线段示意图

2.2 手部轮廓检测

手部轮廓检测采用Moore neighborhood算法[11]实现。定义N(a)为像素a的八个领域像素。p表示为当前

轮廓像素。C表示检测到的轮廓点集合,初始化为空集合。轮廓检测算法描述如下:

1)从上面到下面,并从左到右,在荧幕上扫描所有像素,直到发现手部的像素s就判定为起始点。

2)设置当前轮廓像素p为s,设置初始像素的领域。

3)把p插入C中,然后计算N(p)的领域。

4)从p开始顺时针方向的遍历N(p)的领域知道另外一只手的像素r被找到。

5)把q设置为p,p从新的轮廓像素r开始,然后重复步骤3直到遍历到起始点s,或者检测像素超过最大值。

检测到手部的轮廓后,计算轮廓内接圆的中心坐标得到掌心。手掌中心被用来计算手指的位置。

2.3 识别手指

手指识别首先要确定指尖,通过计算那些既在凸包上又在轮廓上的点来找到指尖。算法描述如下:

1)初始化C序列为既是凸包上的点又是轮廓上的点的集合。

2)遍历C序列上每个点p0,取其左右q1和q2点,分别计算它们到p0的矢量值为和。

3)计算和的夹角为。如果,,则确定为指尖,否则返回2)重新检查下一个候选点。

指尖检测示意图如图5所示,其中白线连接区域表示凸包,黄线连接区域表示手部轮廓,红色点表示检测得到的指尖。

图5经过手指检测得到指尖的位置和手掌的中心

找到指尖点之后,可以与掌心做差值,得到从掌心到指尖的矢量。根据矢量长度和手指间的相对位置识别手指。两个手指之间距离相差最大的是大拇指和食指,小拇指离大拇指最远,中指离食指最近,剩下的是无名指。

图6所示的是手指识别结果,各个手指都被准确地识别出。

(a) 大拇指(b)中指

(c)食指(d)小拇指

图6 手指识别结果

这种凸包结合轮廓的算法,比起k-curvature算法[12],一开始可以排除了两个手指之间间隙这种情况。算法鲁棒性和效率更高。

3手势识别

经过上面一系列的算法,现在我们获得了关于手指和手势的信息有手掌中心位置,手指个数,指尖的坐标和手指的向量。

这四种数据组成了手势的基本元素,通过这些数据可以识别大部分手势。可以通过计算伸开的手指的个数,实现数字手势的识别;还可以利用伸开手指的名字判断手势的意义;还可以根据伸开手指之间的角度来判断手势的意义。

4实验结果及分析

图7 识别数字手势1~5

利用Kinect深度摄像头及OpenNI框架VisualStudio2010开发环境上研究手指检测和手势识别算法。Kinect输入的深度图尺寸为640×480。手势提取中设置固定阈值为500毫米。图7所示的是识别数字手势1~5的结果。

为验证基于Kinect深度信息手指检测和手势识别的有效性,每种手势做40次。如表1所示。

表1 手势识别结果

手势输出1 输出2 输出3 输出4 输出5 准确率(%)

手势1 37 2 1 92.5

手势2 38 1 1 95

手势3 39 1 97.5

手势4 1 39 97.5

手势5 1 38 95

手势数字1由于干扰的可能性大,所以准确率最低。如果手指没有足够伸开,可能不被识别。大拇指的下面的点由于比较尖,也可能被识别为手指,所以手势数字5有一次被识别为数字6。总体来看该算法手势数字识别速度快,准确率高。

5结束语

在本文中,我们提出了基于Kinect深度图的手指检测和手势识别的算法。这个系统与基于RGB的手势识别不同,它可以在亮度低的情况下识别,并且对识别对象的肤色,服装和背景不敏感。我们不仅能找出手指,还能检测到手掌和手指的位置,并且识别不同的手指。通过这些信息,计算机能很方便的识别手势。

与现存的方法不同,我们的方法基于深度传感器,而且不需要数据手套,数据库和机器训练的过程。我们不仅能加测到手掌中心和指尖的位置,而且我们还能准确的找到每个手指,从而可以获得更多识别手势的信息。

由于前期的手指检测获取了丰富的信息,后续工作可以增加识别手势的种类,例如胜利的手势‘V’,可以通过计算手指矢量的夹角在30度到60度之间来判断。基于这个系统,可以很方便的开发出各种应用,比如手势控制鼠标,机器手臂,幻灯片播放等等。

R EFERENCES

[1]SushmitaMitra, TinkuAcharya. Gesture Recognition: ASurvey[J]. IEEE Trans. on Systems, Man, and Cybernet-ics-Part C:

Applications and Reviews, 2007, 37(3): 311-324

[2]况鹰. 基于Kinect运动捕获的三维虚拟试衣[D], 广州: 华南理工大学, 2012

[3]林海波, 梅为林, 张毅, 罗元. 基于Kinect骨骼信息的机械臂体感交互系统的设计与实现[J]. 计算机应用与软件,

2013,30(2):157-160

[4]刘阳, 尚赵伟. 基于Kinect骨架信息的交通警察手势识别[J]. 计算机工程与应用, 2013,26(6):1578-1581

[5]江立. 基于CAS-GLOVE数据手套的手势识别技术研究[D]. 北京: 北京交通大学, 2007

[6]Wikipedia. (2012, Jul.) Wikipedia. Kinect-wikipedia, the free encyclopedia.[Online].Available:https://www.360docs.net/doc/0b12604199.html,/wiki/Kinect

[7]林海波, 等. 基于Kinect骨骼信息的机械臂体感交互系统的设计与实现[J]. 计算机应用与软件, 2013,30(2):157-160

[8]邓瑞, 周玲玲, 应忍冬. 基于Kinect深度信息的手势提取与识别研究[J].计算机应用研究, 2013,30(4):1263-1274

[9]郭康德, 张明敏, 孙超, 等. 基于视觉技术的三维指尖跟踪算法[J]. 计算机研究与发展, 2010,46(6):1013-1019

[10]R. Graham., “An efficient algorithm for determining the convex hull of a finite planar set,” Information Processing Letters 1,

pp.132-133,1972

[11]J.Shotton, A. Fitzgibbon, M.Cook, T. Sharp, M.Finocchio, R.Moore,A.Kipman, and A.Blake, “Real-time human pose recognition

in partsfrom single depth images,” in Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, june2011, pp.

1297 –1304

[12]陈静. 基于Kinect的手势识别技术及其在教学中[D]. 上海: 上海交通大学, 2013

手势识别技术综述

手势识别技术综述 作者单位:河北工业大学计算机科学与软件学院 内容摘要: 手势识别是属于计算机科学与语言学的一个将人类手势通过数学算法针对人们所要表达的意思进行分析、判断并整合的交互技术。一般来说,手势识别技术并非针对单纯的手势,还可以对其他肢体动作进行识别,比如头部、胳臂等。

但是这其中手势占大多数。本文通过对手势识别的发展过程、使用工具、目的与市场等进行综述,梳理出手势识别发展的思路,让读者对手势识别有一个总体上的认识,同时也可以让读者在此基础上进行合理想象,对手势识别的未来有一个大体印象。 Abstract: Gesture recognition is an interactive technology using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, such as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall understanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future. 1.定义 说到手势识别,首先要对手势识别中的手势有一个清晰的认知。手势在不同的学科中有不同含义,而在交互设计方面,手势与依赖鼠标、键盘等进行操控的区别是显而易见的,那就是手势是人们更乐意接受的、舒适而受交互设备限制小的方式,而且手势可供挖掘的信息远比依赖键盘鼠标的交互模式多。在学术界,人们试图对手势定义一个抽象、明确而简洁的概念以为手势及其应用的研究提供依据。1990年Eric Hulteen和Gord Kurtenbach曾发表的题为“Gestures in Human-Computer Communication”中定义:“手势为身体运动的一部分,它包括一部分信息,而且是一种能被观察到的有意义的运动。挥手道别是一种手势,而敲击键盘不是一种手势,因为手指的运动没有被观察,也不重要,它只表示键盘

三种简单手势识别

简单手势识别

一、背景 随着计算机的发展,人机交互技术由传统的鼠标键盘时代发展到了以语音输入、动作识别等技术为代表的自然交互时代n1。特别是视觉计算技术的发展,使计算机获得了初步视觉感知的能力,能“看懂”用户的动作。手势识别作为一种直观自然的输入方式,把人们从传统接触性的输入装置中解放出来,可以以一种更自然的方式与计算机交互,使计算机界面变得更加易‘引。 手势主要分为静态手势和动态手势两种,动态手势可以看作是连续的静态手势序列。动态手势具有丰富和直观的表达能力,与静态手势结合在一起,能创造出更丰富的语义。利用动态手势识别构建新型的交互界面,是新一代的人机交互界面对输入方式自然性的要求,可以弥补传统交互方式的不足。基于视觉和手势识别研究正处于蓬勃发展的阶段,仍存着的许多值得研究的问题。研究基于视觉的动态手势识别对于构建更加好友的人机交互界面很有意义。

二、手势识别概述 2.1、手势识别的概念 手势是姿势的一个子集,姿势这个概念没有精确的定义。一般认为,手势概念经过人的手转化为的手势动作,观察者看到的是手势动作的图像。手势的产生过程如图2-1所示。 图2-1 手势的产生过程 手势识别的过程则找一个从图像V到概念动作G的变换而,如图2-2所示。

2.2、手势识别流程 随着计算机的发展,人机交互技术由传统的鼠标键盘时代发展到了以语音输入、动作识别等技术为代表的自然交互时代n1。特别是视觉计算技术的发展,使计算机获得了初步视觉感知的能力,能“看懂”用户的动作。手势识别作为一种直观自然的输入方式,把人们从传统接触性的输入装置中解放出来,可以以一种更自然的方式与计算机交互,使计算机界面变得更加容易。 手势主要分为静态手势和动态手势两种,动态手势可以看作是连续的静态手势序列。动态手势具有丰富和直观的表达能力,与静态手势结合在一起,能创造出更丰富的语义。利用动态手势识别构建新型的交互界面,是新一代的人机交互界面对输入方式自然性的要求,可以弥补传统交互方式的不足。基于视觉和手势识别研究正处于蓬勃发展的阶段,仍存着的许多值得研究的问题。研究基于视觉的动态手势识别对于构建更加好友的人机交互界面很有意义。

基于手势识别的智能电视交互专利技术综述

基于手势识别的智能电视交互专利技术综述 智能电视具有操作系统,支持第三方应用资源实现功能扩展,支持多网络接入功能,具备人机交互、与其他智能设备进行交互等。随着计算机视觉的发展和人机交互的需要,手势识别研究取得了蓬勃的发展,通过手势识别对智能电视进行控制和操作,能够更轻松、高效地使用电视设备。文章利用专利数据库对智能电视手势识别技术进行了数据统计和分析,对该领域的专利申请趋势等情况做了归纳总结。 标签:智能电视;手势识别;发展状况;专利 Abstract:Intelligent TV has the operating system,which supports the third party application resources to realize the function expansion,supports the multi-network access function,has the man-machine interaction,and carries on the interaction with other intelligent devices. With the development of computer vision and the need of human-computer interaction,the research of gesture recognition has made great progress. By controlling and operating intelligent TV through gesture recognition,one can more easily and more efficiently use TV equipment. This paper makes use of patent database to analyze the data of intelligent TV gesture recognition technology,and summarizes the trend of patent application in this field. Keywords:intelligent TV;gesture recognition;development status;patent 引言 电视是家庭娱乐休闲必不可少的家用电器。如今,电视依然是最为普及的信息传播载体,用户在观看普通节目的同时,还可以上网、娱乐等。从用户的角度出发,通过自然简单、人性化的方式完成交互,无疑是用户完成电视操作的最佳方式。而手势具有直观、自然、丰富的特点,是一种符合人们日常习惯的交互手段,是表達信息和特定意图的良好载体,由于手势具有上述特性,因此在对智能电视进行操控中得到了良好的运用,实现了对智能电视自然灵活地操作。 1 基于手势识别的智能电视控制技术发展状态分析 1.1 技术分解 本文通过检索获得的专利申请进行统计分析,对基于手势识别的智能电视控制所涉及的具体技术和应用领域进行分解。 根据手势采集设备可以将手势识别系统大致分为基于数据手套和基于视觉的两种手势识别系统。其中,数据手套通过多个传感器反馈各关节的数据,并通过位置跟踪器返回人手所在的三维坐标,从而获取手势在三维空间中的位置信息和手指的运动信息。通过数据手套可以直接获取人手在三维空间中的位置和运动

基于Android的视觉手势识别毕业论文

基于Android的视觉手势识别 --相册管理实现

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:日期:

学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期:年月日 导师签名:日期:年月日

基于摄像头的手势识别技术初步版本

基于摄像头的手势识别技术 1、手势识别的概念 手势是姿势的一个子集,姿势这个概念没有精确的定义。一般认为,手势概念经过人的于转化为的于势动作,观察者看到的是于势动作的图像雎1。手势的产生过程如图1-1所示。 图1-1 手势识别的过程则找一个从图像V到概念动作G的变换而,如图下所示。 2、手势识别流程 手势识别流程包手势图像获取、手势分割、手势特征提取、手势识别四大部分,如图2-1所示。 图2-1

3. 手势建模 在手势识别框架中,手势模型是一个最基本的部分。根据不同的应用背景,于势识别采用的模型会有不同,而对于不同的手势模型,采用的手势检测与跟踪算法、特征提取、识别技术也会有差别。手势建模主要分为基于表观的手势模型与基于三维的于势模型。 基于表观的手势建模是一种二维建模,从二维平面观察得到的平面图像信息描述于的特征。 基于表观的手势模型主要包括基于颜色的模型与基于轮廓的模型两种。 基于颜色的手势模型是把手势图像看作像素颜色的集合,通过提取手部的颜色的特征来描述手势。 基于颜色的手势模型的常用特征是颜色直方图。基于轮廓的手势模型是把手看作一个轮廓,通过提取手部图像中手的轮廓的几何特征来描述手势。 4. 手势检测与跟踪 手势检测与跟踪是手势识别处理流程中最前端的处理部分,它处理从摄像头获取到手势图像(序列),从中检测和分割手势对象。如果是动态手势识别,还要对手进行跟踪。 基于运动信息的方法: 基于运动信息的方法是假设在视频中只有手是运动物体。 其中一种方法是背景减法。 它要求背景静止不变,把视频中的每帧与背景相减,背景相同的部分变为零,不同的部分就认为是运动的物体,即手。

关于计算机视觉的手势识别综述

关于计算机视觉的手势识别综述 蒋指挥 (江苏科技大学江苏镇江 213022) 摘要:计算机技术的高速发展也产生了许多新领域,在此对以计算机视觉为基础的手势检测识别技术展开综述。主要阐述该技术的发展历程、实现方法、研究现状以及其存在的不足之处和发展方向。结果表明简单的可穿戴设备的手势识别和深度视觉传感器的手势识别和多方法交叉融合的手势识别是未来该领域的发展方向。 关键词:计算机视觉;手势识别;人机交互 A survey of gesture recognition in computer vision//Jiang Zhi Hui Abstract;With the rapid development of computer technology, a lot of new fields have been developed. In this paper, the technology of gesture detection and recognition based on computer vision is reviewed. This paper describes the development of the technology, the realization method, the research status and its shortcomings and development direction. The results show that the simple wearable device for hand gesture recognition and depth vision sensor for hand gesture recognition and multi method cross fusion for gesture recognition is the future direction of the development of the field. Key words:Computer vision; gesture recognition; human-computer interaction 计算机在我们的生活中越来越不可或缺,我们同时也对计算机提出了更高的要求,计算机视觉的手势识别正是对计算机应用拓展的重要途径,例如现在的VR技术,就是应用了手势识别才实现的。ABIResearch公司高级分析师约书亚·弗拉德(JoshuaFlood)指出:“免提操作或手势识别很快将成为高端旗舰智能手机、媒体平板电脑和智能眼镜区别于其他同类产品的一个关键因素。三星电子最新推出银河S4已经将这项技术用于其手机中,并以其全新的用户体验获得用户交口称赞。此外,在一系列新型智能眼镜产品即将发布之时,不难想象这类技术将被采用。”其实手势识别技术涵盖了许多领域,比如物理学、生物学等,实现手势识别的方式有很多种从一开始的二维手型识别、二维手势识别到后来的三维手势识别,正是计算机视觉技术的发展使得手势识别的实现方式更加多样。但目前的技术仍然很繁琐,冗杂的可穿戴设备就直接影响了使用者的舒适感,其还有很大的发展空间。 1、手势识别的发展历程及其实现方法

2019年全球主要手势识别技术系统细分行业分析

2019年全球主要手势识别技术系统细分行业分析 1、以数据手套为输入设备的手势识别系统 目前使用广泛的人机交互设备是数据手套(DataGlove)。数据手套反馈各关节的数据,并经一个位置跟踪器返回人手所在的三维坐标,从而来测量手势在三维空间中的位置信息和手指等关节的运动信息。这种系统可以直接获得人手在3D空间中的坐标和手指运动的参数,数据的精确度高,可识别的手势多且辨识率高。缺点是数据手套和位置跟踪器价格昂贵,有时也会给用户带来不便,如持戴的手部出汗等。 由于神经网络很适合用快速、交互的方式进行训练,可用于静态手势和动态手势的输入,网络连接的权值也可以根据情况调整,各种用户都能适应手势识别系统。它的缺点是对设备的依赖性高,一旦需更换数据手套,则须重新训练网络。 2、以摄像机为输入设备的手势识别系统 输入设备可用单个或多个摄像头或摄像机来采集手势信息,经计算机系统分析获取的图像来识别手势。摄像头或摄像机的价格相对较低,但计算过程较复杂,其识别率和实时性均较差。其优点是学习和使用简单灵活,不干扰用户,是更自然和直接的人与计算机的交互方式。 目前较成功的实现手势识别的系统,均为依据手掌轮廓区域的几何特征,如手的重心及轮廓、手指的方向和形状等进行分析完成识别,或根据手掌的其他特征,如手掌的运动轨迹、手掌的肤色及纹理等进行分析识别。 手势模型的选取在手势识别系统中,对确定识别范围起着关键性作用。模型的选取往往跟具体应用有关, 不同的应用目的选取不同的模型。比如,对于某个给定的目的,可以先建立简单粗糙的模型,而后再跟据需要建立精细有效的手势模型,这对于实现自然的人机交互是必须的,可使绝大部分手势都能被系统正确的识别出来。 目前,手势模型有基于表观的手势模型和基于3D模型的手势模型。前者通过分析手势在图像(序列)里的表观特征给手势建模,它是建立在手(臂)图像的表观之上的。后者的建模方法则略有不同,其先对手和臂的运动姿态建模,然后再估计手势模型参数。 图表1:同一手势的5种模型图 资料来源:蒂华森咨询

基于手势识别的人机交互综述

基于手势识别的人机交互综述 摘要:近年来,得益于虚拟现实、人机界面技术、计算机视觉等领域的发展,基于手势识别的人机交互技术得到大力的推动。本文就基于手势识别的人机交互技术展开综述。首先概括手势交互的涉及领域,回顾其发展史和国内外研究现状。接着阐明它的基本界定和分类,并在此基础上分析其热点关键技术。然后实例讨论了几种类型手势交互的典型应用。最后给出了结论。 关键词:虚拟现实;手势交互;计算机视觉;手势识别;特征跟踪 1.引言 人机交互技术通过输入、输出设备,以有效的方式实现交互主体与交互客体的对话。当前的人机交互技术已经从过去交互主体适应交互客体,发展为交互客体不断地适应交互主体的习惯和以交互主体为中心的新阶段[1,2,3,4]。以用户为中心的,新型、自然的人机交互技术逐渐成为开发者和科研工作者的关注重点。这类交互方式要求输入与输出能够最大限度地符合交互主体的行为习惯,并能够在交互主体的脑中顺利构建交互环路。由于手势具有极强的信息表述功能,加之人手操作行为本身就是人与世界相互作用的主要方式,因此,基于手识别的人机交互技术相关研究有着重要的理论价值和应用价值。基于手势识别的人机交互技术涉及计算机科学、认知心理学、行为学等诸多方面的知识。本文不能面面俱到,仅就手势交互的基本问题:手势语义的分类,以及当前发展概况、研究热点技术和典型系统应用等相关问题进行综述。 2.研究现状 目前,基于视觉的手势交互已被广泛的研究,由于手势本身的多义性及时空差异性,加之手形变的高维度及视觉问题本身的不适定性,基于视觉的手势识别一直是一项极富挑战性的究课题[5]。需要解决的核心问题是对手形的识别,对手势的跟踪等。传统的方法主要分为两大类:(1)基于模型(model-base)的方法;(2)基于表征(appearance-based)的方法[6]。这些方法及其衍生算法极大程度地依赖于计算机科学中虚拟现实、机器视觉、模式识别、人机交互等多个领域的交流与合作。相关的国际会议:CHI、ICCV、CVPR、ICAT、IEEE VR 为研究者提供了一个能充分交流的空间,并吸引了越来越多的研究人员共同参与合作。此外,学科之间的交流也吸引了心理学研究人员的共同参与。他们以从用户为中心出发,为基于手势交互研究和开发提出了宝贵意见[7]。纵观手势交互的发展历程,其研究重点也从早期简单的系统框架、低层特征提取[8]、手形模板匹配[8]等问题转变到关节式物体跟踪[9,10, 11]、跟踪性能评价[12]、操作型手势解析[14]等问题上。我国在基于手势识别的人机交互领域的研究近年来得到了长足的发展。研究机构集中在国内的研究所和高校的科研单位。目前国内手势交互的研究成果主要有:中国科学院软件研究所[15]的研究中,对二阶自回归过程动力学模型(Auto-Regressive Process, ARP)进行训练和学习,进而建立基于ARP 的预测模型,实现了人手运动的鲁棒性跟踪,在出现跟踪丢失的情况下在后续序列中可以自动恢复正确跟踪。中国科学院自动化研究所模式识别实验室提出一种基于区域的多连接体(手指)的三维运动跟踪算法[13],用多约束融合的方法以及手指的运动特性,建立多刚体的三维运动描述,通过三类基本约束条件,把跟踪问题归结为一个约束误差优化问题。清华大学的崔锦实博士,提出一种基于回归-优化方法的关节式物体的姿态估计方法[16]。该方法把回归分析与全局优化搜索相结合,保证了估计的精度和连续性;针对现有滤波器在高维非线性多峰

2019年全球手势识别技术系统行业竞争分析

2019年全球手势识别技术系统行业竞争分析 重点手势识别技术系统企业市场份额 图表1:2016年我国手势识别技术系统主要品牌市场份额 数据来源:国家统计局手势识别技术系统行业市场集中度 图表2:2016年我国手势识别技术系统行业市场集中度分析 数据来源:国家统计局行业竞争群组 新进入者越来越多,竞争越来越激烈。对于整个手势识别技术系统行业来说,也是存在着新进入者的威胁的。由于行业技术壁垒和资金壁垒都不算很高,随时都可能有新的更大

规模的资金的企业进入,高新技术产品替代普通产品威胁大。 在手势识别技术系统市场上,大企业的产量都在全行业的总产量中占较大份额,从而产量和价格的变动都会对其他竞争对手以至整个行业的产量和价格产生举足轻重的影响。从而每个手势识别技术系统厂商在采取某项行动之前,必须首先推测或掌握自己这一行动对其他厂商的影响以及其他厂商可能做出的反应,考虑到这些因素之后,才能采取最有利的行动。整体来看,手势识别技术系统企业对价格的控制能力较强。 潜在进入者 新进入者在给行业带来新生产能力、新资源的同时,将希望在已被现有企业瓜分完毕的市场中赢得一席之地,这就有可能会与现有企业发生原材料与市场份额的竞争,最终导致行业中现有企业盈利水平降低,严重的话还有可能危及这些企业的生存。竞争性进入威胁的严重程度取决于两方面的因素,这就是进入新领域的障碍大小与预期现有企业对于进入者的反应情况。 进入障碍主要包括规模经济、产品差异、资本需要、转换成本、销售渠道开拓、政府行为与政策(如国家综合平衡统一建设的石化企业)、不受规模支配的成本劣势(如商业秘密、产供销关系、学习与经验曲线效应等)、自然资源(如冶金业对矿产的拥有)、地理环境(如造船厂只能建在海滨城市)等方面,这其中有些障碍是很难借助复制或仿造的方式来突破的。预期现有企业对进入者的反应情况,主要是采取报复行动的可能性大小,则取决于有关厂商的财力情况、报复记录、固定资产规模、行业增长速度等。总之,新企业进入一个行业的可能性大小,取决于进入者主观估计进入所能带来的潜在利益、所需花费的代价与所要承担的风险这三者的相对大小情况。 规模经济形成的进入障碍: ①表现于企业的某项或几项职能上,如在生产、研究与开发、采购、市场营销等职能上的规模经济,都可能是进入的主要障碍。 ②表现为某种或几种经营业务和活动上。 ③表现为联合成本,即企业在生产主导产品的同时并能生产副产品,使主导产品成本降低,这就迫使新加入者也必须能生产副产品,不然就会处于不利地位。 通过规模经济,能够合理的降低成本以及提高市场竞争力,因此手势识别技术系统行业对规模化的要求在逐渐的提高。由于手势识别技术系统行业的规模的提高,这也给潜在进入者造成一定的进入壁垒。同时政策的要求也给新进入者造成一定的限制。这些因素在一定程度上降低了手势识别技术系统领域的竞争力度。 替代品威胁 两个处于同行业或不同行业中的企业,可能会由于所生产的产品是互为替代品,从而在它们之间产生相互竞争行为,这种源自于替代品的竞争会以各种形式影响行业中现有企业的竞争战略。 首先,现有企业产品售价以及获利潜力的提高,将由于存在着能被用户方便接受的替代品而受到限制; 第二,由于替代品生产者的侵入,使得现有企业必须提高产品质量、或者通过降低成本来降低售价、或者使其产品具有特色,否则其销量与利润增长的目标就有可能受挫; 第三,源自替代品生产者的竞争强度,受产品买主转换成本高低的影响。总之,替代品价格越低、质量越好、用户转换成本越低,其所能产生的竞争压力就强;而这种来自替代品生产者的竞争压力的强度,可以具体通过考察替代品销售增长率、替代品厂家生产能力与盈利扩张情况来加以描述。

手势识别技术原理及解决方案

手势识别对于我们来说并不陌生,手势识别技术很早就有,目前也在逐渐成熟,现在大部分消费类应用都在试图增加这一识别功能,无论是智能家居,智能可穿戴以及VR 等应用领域,增加了手势识别控制功能,必能成为该应用产品的一大卖点。手势识别可以带来很多的好处,功能炫酷,操作方便,在很多应用场合都起到了良好的助力功能。 手势识别技术的发展 说起手势识别技术的发展,可以粗略分为两个阶段:二维手势识别以及三维手势识别。 早期的手势识别识别是基于二维彩色图像的识别技术,所谓的二维彩色图像是指通过普通摄像头拍出场景后,得到二维的静态图像,然后再通过计算机图形算法进行图像中内容的识别。二维的手型识别的只能识别出几个静态的手势动作,而且这些动作必须要提前进行预设好。 相比较二维手势识别,三维手势识别增加了一个Z轴的信息,它可以识别各种手型、手势和动作。三维手势识别也是现在手势识别发展的主要方向。不过这种包含一定深度信息的手势识别,需要特别的硬件来实现。常见的有通过传感器和光学摄像头来完成。 手势识别的关键技术 手势识别中最关键的包括对手势动作的跟踪以及后续的计算机数据处理。关于手势动作捕捉主要是通过光学和传感器两种方式来实现。手势识别推测的算法,包括模板匹配技术(二维手势识别技术使用的)、通过统计样本特征以及深度学习神经网络技术。

根据硬件实现方式的不同,目前行业内所采用的手势识别大约有三种: 1、结构光(Structure Light),通过激光的折射以及算法计算出物体的位置和深度信息,进而复原整个三维空间。结构光的代表产品有微软的Kinect一代。不过由于以来折射光的落点位移来计算位置,这种技术不能计算出精确的深度信息,对识别的距离也有严格的要求。 2、光飞时间(TIme of Flight),加载一个发光元件,通过CMOS传感器来捕捉计算光子的飞行时间,根据光子飞行时间推算出光子飞行的距离,也就得到了物体的深度信息。代表作品为Intel带手势识别功能的三维摄像头。 3、多角成像(MulTI-camera),现在手势识别领域的佼佼者Leap MoTIon使用的就是这种技术。它使用两个或者两个以上的摄像头同时采集图像,通过比对这些不同摄像头在同一时刻获得的图像的差别,使用算法来计算深度信息,从而多角三维成像。 简单介绍两个手势识别解决方案: 1、基于NXP LPC824 和Vishay VCNL4020 的手势识别方案 推出基于NXP LPC824 和Vishay VCNL4020 的手势识别方案,可以判断手势运动的

手势识别综述

手势识别综述 【摘要】介绍了手势识别的定义、分类,手势识别的过程,动态手势识别的过程。 【关键词】手势建模;傅里叶描述子;动态手势 1手势定义和分类 通常在人机交互领域手势定义为:人类通过手掌和手指的不同姿势组合形成的具有特定含义的信息的集合体称为手势。 手势通常可以分为操作性手势和交流性手势:如钢琴伴奏家在弹奏钢琴时的手指动作属于操作性手势,通过十个手指的不同组合,在键盘上发出不同声音形成乐曲的弹奏,只有操作的含义,不含有视觉上信息。马路上交警指挥路况时手上的动作属于交流性手势,通过司机观察交通警察手上不同动作理解警察的意思,含有视觉上的信息。 按照手势在表达的信息中所处的地位分为自主性手势和非自主性手势:哑语演示时表演者手上的手势动作完全表达了哑语表演者的思想,手势在语义交流中占主导地位,属于自主性手势,演员表演节目时有时为了更好的表达情感会用手势加深语义表达,但是手势只是为了更好表达意思,起到对演员表达思想的补充,这种手势动作这属于非自主性手势,在语义表达中不占主导地位。按照手势在交流活动中手势的作用对象分为离心手势和向心手势:比如说话人在下命令时手指向受命人这种手势属于离心手势,例如交通警察在交通管制中的手势属于离心手势,当听到某消息时听者会有相应的情感反应这时的手势属于向心手势,例如小朋友表示不同意时摇手即为向心手势。当操作者利用手势表达思想的时候有两种方式,一种是手臂不动完全通过手指和手掌的运动来表达操作者的意思,还有一种是忽略手指的运动,通过手的运动轨迹来表达思想。当我们做研究时会遇到手和手指同时运动的情况这时为了分类方便,需要做相应约束,当手是动的应忽略手指的动作,反之如果手指在动这时应忽略手的运动轨迹。因为基于表观的手势识别最终面临的是手的2D图像如果手和手指的运动同时考虑的话会给分类造成不必要的麻烦。 2手势识别的分类 按照对手势数据采集的方式分为数据手套型和摄像头型。 2.1数据手套 虚拟现实中重要组成部分,是一种通用的人机接口他可以将手指的复杂动作通过传感器反应到虚拟环境中去,在虚拟环境中真实再现手部动作。数据手套使用的效果关键是手套能不能将手指、手掌、手腕的弯曲真实的以数据形势反演到系统数据库中,让系统根据模型对手势进行有效识别,由于手部软组织和计算复杂性,数据手套的计算速度总是存在延时,同时从人机交互的角度手套佩戴也十分不方便,如果多人使用还存在卫生等问题,因此数据手套目前来说只是应用在试验阶段,真正推广到社会应用还有很多问题要解决。例如由海军某课题组开发的某型飞机训练仿真系统采用了数据手套,将人的动作如拉升飞机操纵杆通过数据手套反应到系统中,但是不足之处是手套存在一定的延时,通常第二个动作都准备做了,第一个动作系统往往还没执行,这和真实的飞机操作存在很大的差别,但是要想系统及时接受数据手套传感来的数据,往往对系统的中央处理器要求很高,需要大量投入经费和人力,存在一定的矛盾。因此数据手套在虚拟仿真中往

基于深度图像技术的手势识别方法

龙源期刊网 https://www.360docs.net/doc/0b12604199.html, 基于深度图像技术的手势识别方法 作者:付学娜 来源:《电子技术与软件工程》2015年第04期 所谓手势是指人手或手臂同人手结合而产生的动作或姿势,作为人机交互的一项重要技术,手势识别通过在人手安置相关的硬件设备,并通过硬件设备中的计算模块对人手的位置和速度等信息进行获取,对于识别过程中的定位和跟踪均都具有良好的指导和保障作用。本文通过对手势识别系统与深度图像的成像原理进行阐述,进而结合手势区域分割的相关理论,对基于深度图像技术的手势识别方法展开了深入研究。 【关键词】深度图像技术手势识别圆形轨迹像素值变化点 随着科技的不断发展,基于视觉的手势识别已成为新一代人机交互中的核心技术。在借助相关图像信息的基础上,计算机可以对人手的各种姿态信息以及不同的手势信息尽心准确识别,有效提高了识别的速度与质量。本文以基于深度图像技术的手势识别作为研究对象,通过对手势识别系统及深度图像成像原理进行分析,从手势区域分割以及手势特征提取两方面出发,对深度图像技术下手势识别的方法做出了详细分析。 1 手势识别系统与深度图像成像原理 基于深度图像技术的手势识别系统主要包括了手势、深度图像、手势区域分割、手势特征提取以及手势识别和人机交互等,深度图像以非接触测量的方式对场景中的深度信息进行采集,而所采集的深度信息具有较强的稳定性和可靠性,即不受物体(人手)自身颜色、背景环境和纹理特征等因素的影响。本文以微软的Kinect作为图像采集和获取深度信息的工具,进而对手势识别展开分析。 基于Kinect下的深度图像技术下所采集的640×480深度图像信息的速度可达30f/s,且信息的分辨率维持在5mm左右,在应用方面具有较强的合理性。通过在相关场景采集的场景深度值进行转换,使其转移到灰度值空间,并使深度图像中所有的像素点灰度值大小与实际场景中不同的深度值相对应,进而显示成像。值得注意的是品拍摄区域与深度摄像头之间的距离与图像中的灰度值呈现出明显的负相关关系,即灰度值越大,距离越近。 2 基于深度图像技术的手势识别 2.1 手势区域分割 虽然具有相同深度的像素点,其在深度图像中所具有的灰度值也具有较高的一致性,但由于在每次对人手手势进行拍摄时,人手同深度摄像头间的距离存在差异。因此,无法利用单一的固定阈值对手势区域进行分割,故本文以灰度值直方图作为主要研究方法,进而确定出相关背景及手势区域分割的阈值。由于人手做出相关姿势的区域距离深度摄像头较近,且相对于整

基于计算机视觉的手势跟踪与识别技术的研究毕业论文

基于计算机视觉的手势跟踪与识别技术的研究

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:日期:

学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期:年月日 导师签名:日期:年月日

基于视觉的实时手势识别技术及应用

Abstract With the development of technology, a natural human-computer interaction is urgent for the users. The natural human-computer interaction is user friendly. As an important technology of human-computer interaction, the gesture recognition has become a research hotspot in recent years. The gesture recognition can be divided into two categories: vision-based gesture recognition and inertial sensor-based gesture recognition. Compared to inertial sensor-based gesture recognition, vision-based gesture recognition is more important because of its intuition, convenience, and freedom. In this thesis, we carefully study the key techniques of vision-based gesture recognition, including gesture segmentation, gesture extraction, recognition of static gesture, and recognition of dynamic gesture. At last, we apply our vision-based gesture recognition technology in a human-computer interaction system to test its performance. This system can recognize three gestures: “scissor”, “rock”, “paper”, and let the user play a “scissor-rock-paper” game. Using the skin color information and the motion information, the gesture can be segmented accurately. The skin color information is obtained in real time by using the YCbCr Gaussian skin color model; the background subtraction method is used to extract the motion region; the skin color region and the motion region are fused to obtain the skin color motion region; the morphological method is used to denoise the skin color region. The search algorithm extracts the gesture contour and denoises it through the connected region analysis to obtain the final gesture. For static gesture recognition, we extract the HOG features of the training samples, train the SVM model, and identify the samples according to the trained model. The HOG feature of the training sample is analyzed by the experiment. The experimental results show that this method can identify the different directions of the same gesture and achieves the average recognition accuracy at 93.08%. Considering the scale variability of HOG feature, this thesis adopts the volume semantic local binary patterns (VSLBP) algorithm to extract features, and uses SVM to design a classifier for real-time hand gesture recognition. Based on the three models of "scissors", "rock" and "paper", the LBP algorithm is used to extract the feature to train the SVM model. The tested samples are identified according to the trained model. The experimental results show that the average recognition accuracy is 94.42%. Finally, this algorithm is applied in a human-computer interaction to realize the recognition three gestures: "scissors", -II-

相关文档
最新文档