电子科大phd课程作业—增强现实中的跟踪技术及算法研究

电子科大phd课程作业—增强现实中的跟踪技术及算法研究
电子科大phd课程作业—增强现实中的跟踪技术及算法研究

课题9:增强现实中的跟踪技术

增强现实中的跟踪技术及算法研究

1.研究现状及研究意义

增强现实( Augmented Reality , 简称AR) 是近几十年来在虚拟现实(Virtual Reality , 即VR) 的基础上发展起来的一种新的计算机应用与人机交互技术。与VR 用户完全“沉浸”在由计算机产生的虚拟环境中的情况不同,在AR中,既有虚拟场景,也有真实的环境,是将虚拟场景或信息准确叠加在真实环境中,构成一个虚实统一的联合体。因此,增强现实比虚拟现实更具挑战性,并具有更广泛的应用前景,同时也吸引着相关领域的众多学者的研究兴趣。

在诸如显示、跟踪与配准、人机交互技术等众多关键技术中,虚、实场景的配准( Registration) 一直是一个至关重要的技术难点。要进行虚、实配准,就必须获取真实环境中的某些参照物在用户当前视场中的位置与朝向等相关信息,从而为虚拟场景的配准提供依据,这种位置与朝向信息的获取就是跟踪系统要完成的任务。增强现实对跟踪技术有很高的要求,包括准确性、实时性、稳定性、鲁棒性、可移动性等,因此增强现实中跟踪技术是一个很具挑战性的研究领域。

近年来,基于计算机视觉及模式识别的跟踪方法日益得到人们的重视。对于AR系统而言,本身就要用到计算机(而且需要有较好的图像处理能力) ,有的系统本身也有摄像头(如视频透视型AR系统),所以基于视觉的跟踪技术所需要增加的系统硬件是非常少,容易实现。在AR研究中,基于视觉的跟踪系统一般采用“由内向外”的结构,根据其是否采用人造标记物(Marker),可划分为带标记跟踪与无标记跟踪两大类。

在带标记跟踪技术中,通常在用户环境中感兴趣的目标或参照物表面放置一些标志,作为其识别标记,用户通过置于自己头部或肩上的摄像头采集图像,然后采用模式识别技术,识别出有关标记在图像中位置与朝向,并由此确定用户的位置或视点。由于对标记的识别较为简单、成熟,所以带标记跟踪AR系统应用较多。由于带标记跟踪需要预先放置标记,主要只适用于室内AR系统。无标记跟踪不使用专门的人造识别标记,而通过识别环境中的一些自然特征物,如门、窗、图案、建筑物、广告牌等,从而得到相应的位置与朝向信息。在带标记的跟踪系统中,由于标记是经过精心设计与布置的所以很容易被识别,且准确度相对较高。无标记跟踪系统中,特征物的识别相对较难,其位置也不一定恰到好处,从而增加其计算的难度。但无标记跟踪对于一些不方便布置标记,特别是户外的AR 系统却是一种很有发展潜力的跟踪技术。由于其原理相对简单,实现方便,近年来在AR中应用较多。理论上讲,其跟踪精度可以达到象素级,具有较高的

精度。特别是无标记的跟踪技术,被认为是户外AR系统较好的跟踪技术。

目前限制基于视觉的跟踪技术真正实用化的主要原因还在于计算机视觉技术本身,由于其算法一般都比较复杂,且精度要求越高,计算量也越大,特别是对户外移动AR系统中,其算法及计算机的处理能力不一定能达到实时性的要求。此外,计算机视觉系统容易受到环境变化(如光线、阻挡) 的影响。因此,高速有效的计算机视觉与图像生成算法是解决基于视觉跟踪在AR中实用性的一个重要研究领域。

2. 基于视觉的增强现实技术的研究

随着增强现实技术的迅猛发展,人们对基于视觉的增强现实技术进行了一系列研究,增强现实系统中虚拟物体与真实场景融合技术的研究涉及3D虚拟物体注册技术、摄机标定技术、摄像机的跟踪技术和基于视频的实景空间的建模技术,融合技术的研究主要包括虚拟对象和真实场景的配准以及虚拟物体与真实场景之间的动态一致性,包括虚实物体之间的几何一致性和光照一致性。增强现实系统的研究中,要解决的关键问题是AR系统中虚拟物体和真实场景之间的动态一致性和静态一致性。动态一致性技术包括真实场景实时绘制技术、虚拟物体和真实场景在实时跟踪过程中三维空间位置的一致性技术以及跟踪过程中虚实物体外观的一致性变化技术;静态的一致性研究包括虚拟物体和场景的外观一致性以及虚实物体在空间上的一致性,即虚拟物体注册的一致性研究。

从具体的研究内容上看,在这方面从事的研究包括以下几个方面:三维注册技术、摄像机标定技术、摄像机跟踪技术、虚实光照的一致性以及AR实空间建模技术。

2.1 三维注册技术

在增强现实技术研究中,基于视觉的跟踪注册方法有基于图像特征的方法、分析目标运动特征的方法和寻找数字化图像的模板方法。目前增强现实系统研究中存在的主要问题是虚实注册问题,虚实注册问题研究的关键就是要明确虚实物体坐标系之间的转换关系,只有这样才能将虚拟物体正确地融合到真实场景中。虚实注册过程的大体步骤是:首先在真实场景中对摄像机的位置进行跟踪,获取相机的外部参数;然后利用标定技术,获取摄像机的内部参数,其中包括镜头的焦距,传感器像元的宽度、高度及高宽比;最后进行测量定位,在场景的三维空间中,通过自动计算或用户交互的方式指定虚拟物体的位置和方向,从而实现虚实景象的结合。

传统的目前增强现实技术研究中一种虚实结合的方法是基于人工标志点的增强现实技术,在该方法研究中,通过在场景中布置简单的人打印图案,比如一

个带有内部编码的正方形或者几个三角形,就可以在场景中添加各种虚拟3D物体。索尼公司的最新PS3游戏Eye of Judgement就是基于该技术进行的研究,此游戏在真实环境中逼真地渲染出3D怪兽的游戏角色,受到了广泛的好评。

现有的虚拟物体注册研究中,注册误差较大是其主要问题;对于虚拟物体注册的误差还没有标准的研究是该技术领域的一个主要内容。这方面的研究可采用虚实对象反算方法以及测试集方法。

2.2 摄像机跟踪技术

AR系统中,成像设备、跟踪定位技术和交互技术是实现一个系统的支撑技术。Koller等人利用单个PALCCD摄像机,基于初始摄像机标定的方法估计摄像机的位置,实现了用户与虚拟目标的交互。摄像机跟踪技术可以从不同的角度进行分类。从摄像机数目的角度可以分为单摄像机的跟踪和多摄像机的跟踪,从摄像机运动的角度可以分为静止摄像机跟踪和运动摄像机跟踪根据场景中目标的数目可以分为单运动目标和多运动目标两类。关于视觉跟踪问题的处理有两种思路,即自底向上和自顶向下。自底向上的方法利用从图像序列中获得的运动信息进行数据驱动,自项向下的方法采用构建模型和先验知识进行驱动。

目前视觉跟踪研究中的主要问题是算法的实时性和鲁棒性问题。如果要提高实时性,就必须降低算法的复杂度,或者以昂贵的高速硬件作为代价。

2.3 虚实光照的一致性研究

光照一致性是增强现实技术中一项重要的研究内容,为使计算机生成的虚拟对象具有真实感,使用户在感官上确信虚拟对象是周围环境的组成部分,就需要解决几何一致性、光照一致性和跟踪实时性的问题为了达到光照的一致性,需要恢复出真实场景的光照模型,然后计算真实场景光照对虚拟对象的影响,如明暗、反射效果等。为了解决增强现实系统中的光照一致性问题,Foumier等人首先提出了统一的光照计算框架,利用基于图像的光照技术,将真实场景和虚拟对象融合在一起,但得到的光照效果会产生偏差,并且不支持实时交互。Debevec利用环境映照技术,提出了动态光照的恢复算法,但该方法不适用于动态场景。Agusanto扩展了Debevec的方法,实现了实时绘制,但需要进行离线的预处理过程,而且不支持动态变化的光照环境。

葛学东利用摄像机捕获的标定物和镜面小球的视频图像,提出了增强现实光照系统模型。该方法实现相对简单,不需要对场景及模型进行预处理,实现了虚实对象在增强现实场景中光照的一致性,但是存在的问题是光照不是通过采样得到的,而是合成的,缺乏真实感。基于图像的光照技术是近年来的一个研究热点,它利用真实场景的光照图像来照明真实的或计算机生成的虚拟物体。传统的基于

图像的光照技术需要获取真实场景的光测图来记录场景的光辐射分布信息,以获得真实的光照及环境映射图像,存在的问题是这种利用照片的方法需要离线工作。AR系统的研究中需要一种实时的光照合成,以满足AR系统绘制真实感的需要。3.基于图像配准视觉跟踪算法

图像配准(Image alignment)技术在计算机视觉领域有着广泛应用,如光流分析,运动跟踪,全景图拼接等。自从1981年Lucas-Kanada算法提出以来,近二十年来一直是研究的热点,已出现了大量的算法和研究成果。本章中,首先回顾了经典的L-K算法,然后研究了基于其改进的IC算法和超平面近似算法,并对两种算法进行了比较。最后通过大量实验验证了算法进行运动跟踪的性能。

3.1.1 L-K 算法

1981 年,Lucas和Kanada在解决光流跟踪时提出了L-K 算法。由于其算法框架具有很好的泛化性,所以被广泛应用到其它领域。

图1. 图像配准

如图1所示,给定两个函数I(x),T(x)它们分别表示两幅图像中每个点x处的像素灰度值,x是一个坐标向量。我们的任务是,对于某个感兴趣区域R中的所有像素,找到位移向量h,此h使得I(x+h)与T(x)之间的某种相似性度量得到最优值。这就是最简单的平移图像配准问题。对于一般的图像配准问题,要处理的图像变换就不只图像平移这么简单,它包括图像缩放、仿射变换、射影变换等。将上述问题用数学语言描述,即为求下式的均方误差最小值:

它表示将输入图像I(x)经过变换W(x;p)和模板T(x)图像进行匹配,W(x;p)可以是简单的平移变换,也可以是仿射变换等。式中的求和是对模板图像的所有像素点进行,最小化上述表达式,是一个非线性优化的过程。

L-K算法假定已知参数p,需要迭代计算?p来更新参数,目标函数为求下列公式的最小值。

求得?p后,通过下式来更新参数:

L-K 算法采用高斯牛顿法对目标函数进行优化,首先对其进行一阶泰勒展开得?p的解:

其中Hessian 矩阵为:

?I为梯度图像?I?W/?p被称为最速下降图。之后计算图像的雅克比矩阵?W/?p。

3.1.2 L-K 算法流程和复杂性分析

下面介绍L-K算法的流程,L-K 算法通过上述公式迭代优化参数,每一次循环要进行的步骤如下:

迭代:1. 对图像W(x;p)变换计算I(W(x;p);2. 计算差值图像T(x)- I(W(x;p);

3. 对梯度图像?I用W(x;p)进行变换;

4. 计算图像的雅克比矩阵?W/?p在(x;p);

5. 计算最速下降图?I?W/?p;

6. 利用公式计算Hessian 矩阵H;

7. 计算?p,并更新p;当?p<ε时停止。

算法每一步在每次迭代时都要重新计算,设模板图像具有N个像素,变换W(x;p) 具有n个变换参数。每次迭代算法的时间复杂度为O( n2*N+ n3),其中第六步计算Hessian 矩阵的复杂度为O( n2 *N),因为N远大于n,第六步占用了算法的大量计算资源,是整个算法的瓶颈。自L-K算法提出以来,很多学者在对模板图像像素点的选取,优化算法,以及Hessian 矩阵的计算上都提出了改进。下两节介绍的两种算法都对L-K 算法进行了很好的改进,大大节省了计算资源。

3.2 反成分(IC) 算法

考虑到原L-K算法在计算Hessian矩阵的计算复杂度,有的学者提出采用不变的近似矩阵来代替,但是这类方法很难评价实际的效果,IC算法通过改变当前图像和模板图像的角色将目标函数由上述公式变为下式:

通过迭代计算?p来求上式的最小值,并以式3-13 来更新当前变换。

对原L-K 算法目标函数的改变,改变了求解问题的策略,IC算法所描述的思想可以用图3-3 来形象说明,如公式所示,优化过程变为使图3-3 的中间两幅小图最接近。

同L-K 算法相比,IC 算法在每次迭代中不用重新计算Hessian 矩阵,则整个流程变为:

迭代:1. 计算模板图像的梯度图?T;2. 计算图像的雅克比矩阵?W/?p在(x;0);

3. 计算最速下降图?I?W/?p;

4. 利用公式计算Hessian 矩阵H;

5. 对图像W(x;p)变换计算I(W(x;p);

6. 计算差值图像I(W(x;p) -T(x);

7. 计算?p,并更新W(x;p);当?p<ε时停止。

与L-K算法相比算法预计算的时间复杂度为O( n2 *N),而每次迭代的时间复杂度变为O( n*N+ n3)。L-K 算法同IC 算法在原理上是等效的,计算上也有很多相同之处,但是IC 算法的时间复杂度远小于L-K 算法。

3.3 超平面近似算法

超平面近似算法则采用另一种策略对原L-K算法进行优化。该算法是在Hager

等人的工作上推导。可将原算法抽象为:

该式表明了图像变换?i和运动参数变换?p之间的关系。其中A (t)为在跟踪

过程时刻两者的关系。关系A (t)在跟踪过程,相邻两帧小范围内,s可以理解为一简单的线性变换。根据Hager 的工作,以及上述IC 算法都可以得出,对原问题进行一定的转化,可以为一定值预先计算,与跟踪过程无关。对于原L-K 算法和IC 算法,A是通过对原目标函数进行一阶线性近似后推导得出。它建立起图像差值和运动参数差值之间的线性关系,起到图像雅克比矩阵的作用。然而对实际图像,这种线性关系只在一个很小的范围内满足。上文所述算法都是通过解析推导的形式来得到这个线性关系,由于其推导过程上采用的线性近似,所以存在一定的误差,而超平面近似对A的推导则是根据实际的数据获得。

同IC 算法流程类似,算法也有预计算部分。预计算部分,其时间复杂度为O(N p *N2),而每次迭代的时间复杂度变为O(n*N),超平面算法的预计算时间受N p的影响,因为N p >N,所以算法时间复杂度远大于O(N3)。其算法流程图如下:预计算:1.Np次循环计算公式所需的Y和H;随机生成?p,对图像I用W(x;p+?p)变换计算I(W(x;p+?p),更新Y和H;2.按公式计算A。迭代:3. 对图像W(x;p)变换计算I(W(x;p);4. 计算差值图像I(W(x;p) -T(x);5. 计算?p,并更新W(x;p);当?p<ε时停止。

本小节给出了将图像配准用于目标跟踪的方法,并对L-K算法,同其改进算法的数学基础和算法流程进行了详细的分析,从仿真结果可以看出IC算法的跟踪能力有限,如若要进行实际的应用,可以考虑加入多分辨率分析的方法。对超平面近似算法,如何利用已有模板知识来进行模板更新是一个值得探讨的问题。

4. 研究中存在的问题及进一步的研究工作

综上所述,虽然目前AR技术的研究工作已经取得了一定的进展,但是,在研究中仍存在着一些问题,例如,全景AR场景构建技术研究中还存在实时性较差的问题;在基于视频的AR技术研究中,在摄像机实时跟踪的情况下,漫游与跟踪仍然存在实时性较差的问题;再有AR系统中的虚拟物体注册仍存在较大误差,虚实物体外观一致性较差的问题也比较严重。因此,有必要进一步开展这方面的研究工作,其意义体现在两方面:一方面AR系统的理论研究有利于进一步深入探索并推动相关领域应用的发展;另一方面,这些研究成果能在实际应用中发挥巨大的潜力,推动国民经济的进一步发展。

(1)如何利用采样视频合理描述AR系统的实景空间的问题;

(2)为了准确地进行虚实配准,如何利用采样视频实时地恢复摄像机的内外参数;

(3)如何实现AR系统的实景空间的实时生成,并实现摄像机的实时跟踪与漫游;

(4)如何构建虚实物体注册性能的评价准则,衡量虚实物体的注册误差的大

小;

(5)如何在摄像机跟踪时,动态地实现场景中的虚实一致性外观。

上述都是目前增强现实领域中需要解决的问题,这些问题的解决必将推动增强现实技术的进一步发展。

相关主题
相关文档
最新文档