摘要：阐述了双目立体视觉技术在国内外应用的最新动态及其优越性。指出双目体视技术的实现分为国像获取、摄像机标定、特片提取、立体匹配和三维重建几个步骤，详细分析了各个步骤的技术特点、存在的问题和解决方案，并对双目体视技术的发展做了展望。

关键词：双目立体视觉计算机视觉立体匹配摄像机标定特征提取

双目立体视觉是计算机视觉的一个重要分支，即由不同位置的两台或者一台摄像机（CCD）经过移动或旋转拍摄同一幅场景，通过计算空间点在两幅国像中的视差，获得该点的三维坐标值。80年代美国麻省理工学院人工智能实验室的Marr提出了一种视觉计算理论并应用在双睛匹配上，使两张有视差的平面图产生在深度的立体图形，奠定了双目立体视觉发展理论基础。相比其他类的体视方法，如透镜板三维成像、投影式三维显示、全息照相术等，双目本视直接模拟人类双眼处理景物的方式，可靠简便，在许多领域均极具应用价值，如微操作系统的位姿检测与控制、机器人导航与航测、三维测量学及虚拟现实等。

1 双目体视的技术特点

双目标视技术的实现可分为以下步骤：图像获取、摄像机标定、特征提取、图像匹配和三维重建，下面依次介绍各个步骤的实现方法和技术特点。

1.1 图像获取

双目体视的图像获取是由不同位置的两台或者一台摄像机（CCD）经过移动或旋转拍摄同一幅场景，获取立体图像对。其针孔模型如图1。假定摄像机C1与C2的角距和内部参数都相等，两摄像机的光轴互相平行，二维成像平面X1O1Y1和X2O2Y2重合，P1与P2分别是空间点P在C1与C2上的成像点。但一般情况下，针孔模型两个摄像机的内部参数不可能完成相同，摄像机安装时无法看到光轴和成像平面，故实际中难以应用。

上海交大在理论上对会摄式双目体视系统的测量精度与系统结构参数之间的关系作了详尽分析，并通过试验指出，对某一特定点进行三角测量。该点测量误差与两CCD光轴夹角是一复杂的函数关系；若两摄像头光轴夹角一定，则被测坐标与摄像头坐标系之间距离越大，测量得到点距离的误差就越大。在满足测量范围的前提下，应选择两CCD之间夹角在50℃～80℃之间。

1.2 摄像机的标定

对双目体视而言，CCD摄像机、数码相机是利用计算机技术对物理世界进行重建前的基本测量工具，对它们的标定是实现立体视觉基本而又关键的一步。通常先采用单摄像机的标定方法，分别得到两个摄像机的内、外参数；再通过同一世界坐标中的一组定标点来建立两个摄像机之间的位置关系。目前常用的单摄像机标定方法主要有：

（1）摄影测量学的传统设备标定法。利用至少17个参数描述摄像机与三维物体空间的结束关系，计算量非常大。

（2）直接线性变换性。涉及的参数少、便于计算。

（3）透视变换短阵法。从透视变换的角度来建立摄像机的成像模型，无需初始值，可进行实时计算。

（4）相机标定的两步法。首先采用透视短阵变换的方法求解线性系统的摄像机参数，再以求得的参数为初始值，考虑畸变因素，利用最优化方法求得非线性解，标定精度较高。

（5）双平面标定法。

在双摄像机标定中，需要精确的外部参数。由于结构配置很难准确，两个摄像机的距离和视角受到限制，一般都需要至少6个以上（建议取10个以上）的已知世界坐标点，才能得到比较满意的参数矩阵，所以实际测量过程不但复杂，而且效果并不一定理想，大大地限制了其应用范围。此外双摄像机标定还需考虑镜头的非线性校正、测量范围和精度的问题，目前户外的应用还有少。

上海大学通信与信息工程学院提出了基于神经网络的双目立体视觉摄像机标定方法。首先对摄像机进行线性标定，然后通过网络训练建立起三维空间点位置补偿的多层前馈神经网络模型。此方法对双目立体视觉摄像机的标定具有较好的通用性，但是精确测量控制点的世界坐标和图像坐标是一项严格的工作。因此神经网络中训练样本集的获得非常困难。

1.3 特征点提取

立体像对中需要撮的特征点应满足以下要求：与传感器类型及抽取特征所用技术等相适应；具有足够的鲁棒性和一致性。需要说明的是：在进行特征点像的坐标提取前，需对获取的图像进行预处理。因为在图像获取过程中，存在一系列的噪声源，通过此处理可显著改进图像质量，使图像中特征点更加突出。

1．4 立体匹配

立体匹配是双目体视中最关系、困难的一步。与普通的图像配准不同，立体像对之间的差异是由摄像时观察点的不同引起的，而不是由其它如景物本身的变化、运动所引起的。根据匹配基元的不同，立体匹配可分为区域匹配、特征匹配和相位匹配三大类。

区域匹配算法的实质是利用局部窗口之间灰度信息的相关程度，它在变化平缓且细节丰富的地方可以达到较高的精度。但该算法的匹配窗大小难以选择，通常借助于窗口形状技术来改善视差不连续处的匹配；其次是计算量大、速度慢，采取由粗至精分级匹配策略能大大减少搜索空间的大小，与匹配窗大小无关的互相关运算能显著提高运算速度。

特片匹配不直接依赖于灰度，具有较强的抗干扰性，计算量小，速度快。但也同样存一些不足：特征在图像中的稀疏性决定特征匹配只能得到稀疏的视差场；特征的撮和定位过程直接影响匹配结果的精确度。改善办法是将特征匹配的鲁棒性和区域匹配的致密性充分结合，利用对高频噪声不敏感的模型来提取和定位特征。

相位匹配是近二十年才发展起来的一类匹配算法。相位作为匹配基元，本身反映信号的结构信息，对图像的高频噪声有很好的抑制作用，适于并行处理，能获得亚像素级精度的致密视差。但存在相位奇点和相位卷绕的问题，需加入自适应滤波器解决。

1．5 三维重建

在得到空间任一点在两个图像中的对应坐标和两摄像机参数矩阵的条件下，即可进行空间点的重建。通过建立以该点的世界坐标为未知数的4个线性方程，可以用最小二乘法求解得该点的世界坐标。实际重建通常采用外极线结束法。空间眯、两摄像机的光心这三点组成的平面分别与两个成像平面的交线称为该空间点在这两个成像平面中的极线。一旦两摄像机的内外参数确定，就可通过两个成像平面上的极线的约束关系建立对应点之间的关系，并由此联立方程，求得图像点的世界坐标值。对图像的全像素的三维重建目前仅能针对某一具体目标，计算量大且效果不明显。

2 双目体视的最新应用

2．1 国外研究动态

双目体视目前主要应用于四个领域：机器人导航、微操作系统的参数检测、三维测量和虚拟现实。

日本大阪大学自适应机械系统研究院研制了一种自适应双目视觉伺服系统，利用双目体视的原理，如每幅图像中相对静止的三个标志为参考，实时计算目标图像的雅可比短阵，从而预测出目标下一步运动方向，实现了对动方式未知的目标的自适应跟踪。该系统仅要求两幅图像中都有静止的参考标志，无需摄像机参数。而传统的视觉跟踪伺服系统需事先知道摄像机的运动、光学等参数和目标的运动方式。

日本奈良科技大学信息科学学院提出了一种基于双目立体视觉的增强现实系统（AR）注册方法，通过动态修正特征点的位置提高注册精度。该系统将单摄像机注册（MR）与立体视觉注册（SR）相结合，利用MR和三个标志点算出特征点在每个图像上的二维坐标和误差，利用SR和图像对计算出特征点的三维位置总误差，反复修正特征点在图像对上的二维坐标，直至三维总误差小于某个阈值。该方法比仅使用MR或SR方法大大提高了AR系统注册深度和精度。实验结果如图2，白板上三角开的三顶点被作为单摄像机标定的特征点，三个三角形上的模型为虚拟场景，乌龟是真实场景，可见基本上难以区分出虚拟场景（恐龙）和现实场景（乌龟）。

日本东京大学将实时双目立体视觉和机器人整体姿态信息集成，开发了仿真机器人动态行长导航系统。该系统实现分两个步骤：首先，利用平面分割算法分离所拍摄图像对中的地面与障碍物，再结合机器人身体姿态的信息，将图像从摄像机的二维平面坐标系转换到描述躯体姿态的世界坐标系，建立机器人周围区域的地图；基次根据实时建立的地图进行障碍物检测，从而确定机器人的行走方向。

日本冈山大学使用立体显微镜、两个CCD摄像头、微操作器等研制了使用立体显微镜控制微操作器的视觉反馈系统，用于对细胞进行操作，对钟子进行基因注射和微装配等。

麻省

双目立体视觉技术的实现及其进展_化学化工论文

相关论文

论文评论