计算机视觉和图像理解毕业论文

1.导言

在社会机器人的新兴领域，人类–机器人相互作用通过手势是一个重要的研究课题。人类进行交际的手势中，指向手势的互动与机器人特别有趣。他们开放的直观指示对象和位置的可能性，是特别有用的机器人的命令。指向手势也可结合语音识别指定的口头述和位置参数，还提供了一个明确的输入语音识别时发生歧义。这种类型的一个例子的情况是指向手势引导机器人到一个特定的对象或使用地点。机器人必须能够检测的指向手势和估计目标位置，从而指出，主要的问题出现，有关最近在这一领域的研究视野[1–4,8]。一些最重要的挑战是相关的实时计算，得到的精度和运行在困难的杂乱环境可能遮挡，光照和不同的背景。另一个共同的要求是，指向手势必须认识到，无论规模大小，大指向手势是指进行全臂延伸而小的指向手势只减少前臂和手的运动[ 3,4 ]。

基于这一事实，对于大多数应用程序，它是指目标而不是实际的指向，这是非常重要的，我们制定了一个新的方法，与现有的指向手势识别的方法，也考虑到可能指出目标位置的先验信息。假设的指示语的手势，最常见的类型例如，一个涉及食指指向对象的利益和用户的目光指向同一目标[ 5,6 ] 我们制定我们的方法使用单眼设置高精度跟踪下飞机头部旋转，同时识别手指的手势。这两种输入流被组合在一起推导出指向目标使用的配方是基于Dempster-Shafer理论的证据[7]。一种区别我们的方法来自使用相机基本的方法，多数使用立体声或多摄像机设置。然而，本文的主要容在于基于Dempster-Shafer理论输入端的组合，让该方法在一种或两种输入数据流丢失的情况下能妥善处理（例如手指向的来自遮挡了的可见光）；也就是，使用的输入的信号缺乏，实现了令人印象深刻的结果，这是当代概率融合方法不可能得到的来源[1,8]。此外，本文所提出的制定的信念被分配到设置尖锐的目标而不是个人提出的目标。Dempster的组合规则有助于这些信念相结合，而不需要将他们的个人目标的分别观测指出，假如没有明确的建议。在下面的章节中对相关工作（第2节）和提出的方法（第3节）进行了论述。手指的手势识别的简要讨论在第4节而人脸姿势识别在第5节进行了阐述。人脸姿态和手指的融合，是本文的重点，在第6节进行了分析。在模拟环境下的实验结果及其使用的地面真实数据的结果在第7节。本文的结论与讨论在第8节。

2相关的工作

手势识别的研究近年来受到越来越多的关注，也超越了人类–机器人互动的区域，例如在情感计算和身临其境的游戏技术。第一次尝试解决手势解读导致的机械装置，直接测量手或手臂的关节角度和空间位置，所谓的手套设备[ 9 ]。随着计算机视觉技术及快速处理器可用性的最新研究进展，在基于视觉的非接触式接口增加了可穿戴设备，克服阻碍缓解作用的弊端。最近基于视觉的手势识别技术作了较全面的介绍[ 11 ]而且大部分的努力都集中在手势识别[12,6]以及手语翻译[ 13,14 ]。

基于视觉手势的研究指出，有使用立体声或多摄像机系统的几种方法，这只手/手臂、双手、手臂和头。他们中的大多数估计指向在水平方向上，而其他的一些在水平和垂直方向。在那些用手或手臂，奇波拉等人。[ 15 ]利用立体视觉与主动轮廓跟踪的位置和指向对机器人的两维空间。Hosoya等人[ 16 ]衍生的肩膀和手臂的深度和立体彩色图像的三维位置来估计三维指向。最近，Huetal [ 17 ]用合适的AdaBoost级联反应检测器[ 18 ]的手势检测和指向从立体图像估计的主动外观模型，然而检测时间高成本。

其他作者的关于人脸的三维位置和指向手使用的信息，以获得视线和估计的指向。Jojic 等人。[ 19 ]识别指向手势的基础上密集的视差图和辨别从身体的手臂的统计模型和估计的指向从头部和手部的极值点。在Stiefelhangen和Nickel的工作中[ 1,2,20 ]使用神经网络的头部姿态估计和基于HMM模型的方法来识别指向手势。然而，他们的方法因延迟识别搜索三种特征序列检测的指向手势。Kelh和Van Gool [ 21 ]，以及Watanabe等人。[ 22 ]利用多摄像机系统检测脸和手。首先提取人体轮廓，头和手的极值点，解决了三维的对应关系和推导出的指向。图像分割的质量有很强的影响该方法的准确度，这在[ 21 ]是不定量评估。后者估计人脸方向八可用相机离散面方向特征类一起使用它的3D手的位置指向估计。最近，Park和Lee[ 4 ]，基于立体相机，使用同样的[ 2 ]一个基于HMM的方法在两个阶段识别指向手势，但在指向手势的不同定义的。本文考虑的姿态，但规模第一，该方法的精度主要取决于第一阶段的HMM的状态数，因此需要更多的训练数据和处理时间。这些方法中的一些遭受延迟识别，例如[ 2,17 ]，有限的精度评估，例如21,17 ]和大多数的（除非在这里[ 4 ]）不支持手势规模。

不像我们使用一个单一的摄像头，可以放置在一个移动机器人平台上面的方法。单相机系统进行Kolesnik和Kulessa [ 23 ]控制使用俯视相机虚拟物体的运动通过Cernekova等人。【24】基于视频的交互作用。在[ 23 ]架空的相机的就业产生的实验装置，明显偏离一个使用在当前的工作，因此，没有进一步的关注[ 23 ]。后来的工作主要集中在识别画面上的是指用户的网格单元，通过梯度向量流（GVF）检测指手蛇的。用户初始化屏幕区域的边界，映射到二维图像，通过指向左上和右下角的屏幕。随后，通过线性变换计算指向子区域。虽然报告说这初步的结果是良好的方法，针对具体应用的视野非常狭窄，限制在其他环境中的普遍性的方法。Richarzetal。[ 25 ]提出了一种神经网络的体系结构，能够估计一个参照目标点上的地板从指出构成，从而使得用户能够通过指向命令移动机器人。结果表明，神经网络估计是相当敏感的偏离的姿势是训练。在两个测试对象的情况下，可接受的结果已经报告只有当手动的头检测中得到应用，而在Viola–Jones方法中[ 18 ]取代人工检测导致的整体性能[ 25 ]的一个明显的降解。

表1总结了上述审查的方法。正如已经提到的，大多数这些方法使用两个或多个摄像机，可以推导出在指向精度好的结果。只有多机系统，如[ 21 ]，可以支持360°指向手势检测。规模大的指向手势手势，指全臂进行扩展和小的指向手势减少前臂和手的运动，只在Park 和Lee[ 4 ]中支持，但只有在[-90°；90°]的围。

本文提出的方法使用单眼相机安装和支持规模的手势，以及钝角的指向手势超出围°调整到在水平方向的[-90°；90°]围。同时，指出了提高精度和实施的方法以及在实时中的操作，

照顾了遮挡，光照和动态背景。

表格1

审查的系统指的方向估计的总结。NC代表的相机数。PA是指向精度，给出了

每一个具体的应用和并且 N/A表示不支持。RT是实时处理，表中的○是指实时处理，△意味着近实时处理并且 N/A表示不支持。SG站规模的姿态，其中X表示不支持大的和小的指向手势，○是指大的和小的指向手势的支持。OG是钝角的姿态，其中X是钝角的手势是不支持的，而○意味着它是支持。

a 在一个40cm的地方

b 在[-22.5°，22.5°]的视角围

c 大/小手势

d 在一个2mX1.5m的屏幕上，计算[-25°，25°]的视角

e 45%的案例

这项工作的主要新颖之处是以人脸定位的有效融合与公认的手指手势相结合，要精确地估计所指的目标。Dempster-Shafer理论上[ 7 ]是利用制定融合作为一个可能的指向信念的空间估计问题。即使在情况下，系统无法识别手指手势或面取向（或没有），这（缺乏）的信息提供了一个证据，在大多数情况下是足够的重要的明显限制可能的个数。这一特征使得Dempster-Shafer组合最适合手头的任务的理论，从人脸跟踪和/或手势识别这样的错误并不少见，在现实世界中的相互作用。

3. 目标情况下，提出的方法

该目标的情况下，我们的地址是一个机器人在公共空间的操作，如展览或博物馆，与人类和提供感兴趣的信息有关特定点的相互作用（“景点”，例如展品）。具体的景点，用户可

以在目标设定，换句话说，“指出目”。在前面的章节中已经提到的，正是针对的目标是估计在我们的工作中，而不能任意指向可能造成的不受限制的指示语的手势在用户的环境。

该机器人配备有2D地图的环境，此外，知道在这地图的上的所有景点的位置。定位模块提供了机器人在地图上的位姿（2D位置和方向），因此，机器人可以与自己的坐标计算出所有景点的相对位置。人与机器人交互的用户站在机器人的前面，他/她相对于机器人的位置在地图上是机器人使用激光测距仪来测定的。

所有的人类–机器人之间的互动是通过机器人的对话和行动还有处理（DAM）负责提示用户输入，对用户的响应（语音和手势）和生产机器人的响应。对话的大部分机器人开始所以DAM知道期望用户的手势和手势是希望每一次。

尤其是指向手势，机器人只希望这种手势的相关问题后（例如机器人问用户，这表现出（即POI）他/她想参观下）。因此，这是合理的假设，我们知道什么时候期待一个指向手势和我们的算法只需要找到（a）时，正是这个指向手势发生和（b）的POI，用户代表的是什么。

一个重要的假设是，所有的手势指向景点。因此，手头的任务有关的POI，用户点的精确估计。另一个假设，我们可以很容易地使是当用户点一个点，这一点必须是“可见”的用户和机器人。这里，术语“可见”意味着视线之间的用户（或机器人）和POI不是由一些障碍物遮挡。换句话说，机器人期望用户不会点到一个点，一堵墙的后面。然而，用户还可以指出一点，后面是机器人或后面的用户，只要有点和用户或机器人之间没有障碍。

图1。所提出的估计方法，指出目标框图

图1描绘的是所提出方法的概述。第一步是跟踪用户的面部斑点和手。这些都是使用皮肤颜色的斑点追踪[ 29 ]图像平面跟踪。增量贝叶斯分类器[ 30 ]是用来检测轨道分类皮肤色的斑点，成左右手，手和脸。然后两个独立模块用于手和脸。手斑点是美联储的手势识别模块，用于识别手指手势[ 31 ]时，面部斑点被馈送到一个最小二乘匹配（LSM）模块[ 37 ]这是用来推导出差动旋转通过补丁的图像帧之间的变形。

该手势识别模块的输出可以带三个值：“左边点”“右边点”和“看不见”，如果没有指向手势可以确认。该人脸定位估计模块的输出是一个标量变量，如人脸定位计算，或'NaN'如果面对的方向不能计算。

最后，我们的方法估计的指向手势（计算提出POI）通过整合信息的人脸定位与使用Dempster规则的组合的手势识别的信息。

4.手指手势识别

能够识别指向手势的人需要有与机器人交互的位置和姿态信息。因此，我们跟踪的人的脸和手的位置，这些都在指点手势识别的重要特征。

我们方法的第一步是检测输入图像中的肤色区域。为了这个目的，我们使用一种类似于在[26,27]里描述的。最初，图像的前景区域是由一个背景减法算法利用提取[28]。然后，前景像素的特点是根据他们的概率来描绘人类的皮肤，然后组合成固体皮肤颜色的斑点，使用滞后阈值和连接的组件标签。位置和每个斑点的速度被建模为一个离散时间，线性动态系统，利用卡尔曼滤波方程和传播的像素的假设算法跟踪[29]。该算法根据信息对每个被跟踪的对象的像素的空间分布（即它的形状）传播框架使用对象的当前动态帧，所估计的卡尔曼滤波器。传播的像素密度的假设提供了度量，它是以副观察皮肤颜色的像素与现有的对象跟踪的一种方式，是意识到每个对象的形状和与它相关联的不确定性轨迹。

它要注意跟踪结果依赖于背景模型的质量以及照明条件这一点上，这有望作为机器人的移动变化。为了这个目的，机器人将自动调整相机的白平衡速度参数以便该背景模型每次到达一个新的位置和快门能重置。

第二步是进一步区分出斑点的左手，右手和面，以及保持和不断更新的信念，类似的每个跟踪点。为了这个目的，我们使用一个增量的概率分类，如[ 30 ]，使用作为输入的速度，方向，对皮肤色的斑点的位置和轮廓形状。该分类器可识别的手和多个面孔的人，即使在部分遮挡的情况下，也能够保持左右手的假设。

对于实际的手指识别，一个重要的方面是一个指向手势发生的有效时间检测。根据[ 6 ]，手势的时空结构可以分为三个阶段：准备，举动和回缩，与此规则的所谓的“'跳动“例外”（对语音的韵律结构相关的手势）。“'准备”和“'回缩”的特点是快速改变手的位置，而在“'举动”，手仍然是，在一般情况下，不动。考虑到的运动的手的轨迹和一系列的相关标准，在[ 31 ]，我们检测的'举动”阶段，即相所指向的姿态发生。为了识别手指手势手势组成的机器人，手势词汇集之间，此外，将其分类为“'指向左”和“指向右”'手势，我们采用一个以规则为基础的技术[ 32、31 ]。根据该技术，手势识别是基于数与手执行的手势，即区分手指的姿势，可见指尖和它们的相对位置相对于手的斑点质心的数量。因此，它是可以识别的小手指手势大角度的前腰位置，在指尖可以在手上斑点的区别，除了案例的人是直接

指向相机的角度接近0°，正如图2所示。

5.面对姿态估计

估计的POI，用户是看在一个非侵入性的方式进行的指向手势，我们采用的技术，跟踪用户的头的方向。这是通过跟踪在水平方向绕头的Y轴面面旋转实现（第5.2节）通过一个基于特征的人脸跟踪方法基于最小二乘匹配（LSM）。

5.1.最小二乘法

区域或基于模板的方法已在各种情况下包括匹配[ 33 ]立体开发，视觉运动分析[ 34 ]，表面重建[ 35 ]和[ 36 ]对象跟踪。LSM [ 37 ]是一个匹配技术能够有效地模拟的辐射和几何图像块之间的差异，也看作是一个概括的互相关，因为，在其一般形式，它可以弥补几何差异旋转，缩放和剪切，而相关模型的几何差异只有翻译和辐射的差异仅由于亮度和对比度的变化。因此，它的精度是有限的，迅速降低，如果几何模型是违反（旋转大于20和尺度大于30%的差异），而LSM，其一般形式，可以补偿几何差异旋转，缩放和剪切。在我们的语境LSM用于帧间计算，跟踪在一个较长的时间跨度，得到用户的脸部旋转而进行的指向手势。

图2。手指手势识别不同指向目标。它是认识的手在一个大围的在前腰位置指向角的姿态是可行的，除了角接近0°如左图。

一般的估计模型的制定是基于这样的假设，有两个（或更多）的图像窗口（称为图像的补丁）。这些图像块进行离散函数f（x，y），g（x，y），其中f是g的模板和搜索图像块模板和搜索图像分别。问题述发现模板图像补丁f（x，y）相应的部分；在搜索图像g（x，y）。如果匹配是理想的建立：

而真正的误差矢量e（x，y）在（2）包括模型误差在图像的辐射和几何的不同所引起的。

该函数的值的位置g（x，y）必须被确定为匹配。这是通过最小化目标函数的措施，模板的灰度和补丁之间的距离实现。以最小化的目标函数的L2数的残差最小二乘估计。在最小二乘法的背景下，方程（2）可以被视为一个非线性观测方程模型观测向量f（x，y）与一个函数g（x，y），其在搜索图像的位置需要估计。假设我们有两个连续的帧，考虑到图像的变形和获得更好的匹配，图像形成参数介绍在平移参数。因此，一组变换参数需要估计从（2）和非线性，（2）是通过扩大成泰勒级数和只保留零和阶，条款根据线性化（3）：

dpi..通过变换参数

这参数的数量是由以下因素决定的。估计模型应适应以足够的参数能够形成完全的底层图像过程模型。参数是非确定性、高参数间的相互关系有影响的估计模型和恶化的比赛质量。在建立一个地区类似的努力，包括Hager和Belhumeur的工作[ 38 ]，明确建模的几何结构