360°全景拼接技术简介

核心就是一个单应性条件需要满足。

0. 引言

图1,2,3. 两张图片的拼接

图像拼接是计算机视觉中一个有趣的领域，它把来自多个不同视角相机的图像变换到同一视角下，无缝拼接成一张宽视野图像（比如360度全景图，甚至360度*180度的球面全景）。上图所示，即为两张图像的拼接，结果基本是完美的。

扫描二维码关注公众号，回复： 3565187 查看本文章

需要注意的是，由于相机各自的指向角度不一样，因此两图片中来自同样场景的部分并不能够通过平移图像而完全重合。比如上图中那栋带有岭南风格拱顶的房子，它的屋檐在左图中要比右图中更水平些，如果试图通过平移对齐像素来拼接两幅图，结果必然不自然（比如在屋檐处出现拐角）。两图要做到完美叠合，不是一个平移变换能做到的。当然，肯定存在这样一个变换，那它是什么呢？

事实上这里边的数学原理（射影几何）很古老，什么情况下不同位置、视角的相机可以变换到同一视角下拼接起来也是久为人知的，只不过能够利用计算机来进行大规模自动拼接，还是近些年才成熟起来的事。

那到底什么情况下图像可以拼接，如何拼接呢？不妨先摆出结论吧：在两种情况下图像可拼接，一是各相机几何中心重合；二是各相机位置任意，但场景是一个平面。一种特殊情况，场景为远景时，可以近似的等价于一个平面场景，从而也是可拼的。拼接的方法很简单，在满足上述两种情况之一时，存在一个单应性变换（Homography），能够将一个相机的图像变换到另一个相机的视角下从而可以进行拼接。

下面我们用一套直观的语言来讲解这个变换，以及更复杂些的拼接方法。

1. Homography

图 4. 单应性变换

如图，计算机视觉中，我们用一个投影中心点和一张图像平面来刻画一个理想的相机。点与平面的距离为焦距，任意场景点所成像点用这样一种简单的方式来决定：将它与投影中心连线，连线与图像平面的交点即像点位置。图中给出了两个共中心的相机，它们有不同的指向（因而也有不同的图像平面和 $P^{\prime}$ ），同一场景点在两个平面上的像点由紫线与两平面的交点、 $D^{\prime}$ 给出。到这里我们就直观的得到了这样一个变换：上像点到 $P^{\prime}$ 上对应像点的一个映射。这个映射可以把两张不同视角下拍摄的照片变换到同一视角下，从而能够完美拼接两张图像。这个映射正是我们要说的单应性变换。

到这里我们可以回头来解释另一个问题，为什么要求相机共中心？不妨反过来考虑，如果两相机不共中心，会出现什么样的情况？如图所示，

图 5. 单应性的破坏

我们让两相机的投影中心、 $O^{\prime}$ 相离。这时可以看到， S_1 、 S_2 两点原本在相机上投影到同一像点，这时在相机 $O^{\prime}$ 上却投影到了不同像点。这意味着相机 $O^{\prime}$ 看到了在视角下被遮挡而看不到的内容，此时我们无法把 $O^{\prime}$ 看到的图像变换到的视角下。考虑一个极端情形可以进一步解释这个问题：如果两个相机分别拍摄同一物体的正面和背面，那它们所看到的内容无论如何也不能变换到同一视角之下，或者说，我们根本找不到这样一个新的相机，在它的视角之下可以看到、 $O^{\prime}$ 二者所看到内容的总和。这就解答了我们之前的问题：非共中心放置时，各相机看到的内容太丰富以至于不能变换到同一视角下。读者可以检查，在相机共中心时，一个相机中被投影到同一像点的场景点，总会在另一相机中也被投影为同一像点。

事实上，在相机摆位任意时，我们看到的信息是如此丰富，以至于可以尝试重建出场景点的三维坐标。现代的三维重建算法可以利用不同位置、视角下拍摄的图像重建出物体的三维模型，这是后话。

当然，读者仍然可能想起，除掉共中心情形，我们还说过，相机摆位任意，但场景为一个平面时也是存在单应变换的。我们在这里不再给出这种情况的直观解释，读者可以自己思考。

适用场景与约束
首先，算法要求各相机间的相对位置、角度在实时拼接过程中保持固定，且相邻相机的视野有一定重合区域。
理论上能够变换到同一视角下进行无缝拼接的场景有两种，一种是多摄像机共中心放置，中心开花状；一种是摄像机位置任意，但场景是一个平面。当场景为远景，且场景-摄像机距离远大于摄像机之间的距离时，也可以近似看做第二种情形。上述情形之外的情况均不可拼，这是一个原则性的限制。

2. 曲面投影

图6. 近 $90^{\circ}$ 时产生越来越大的畸变

通常简单的图像拼接技术，就是如上节所示的基本原理，找出一张大概处于中间位置的图像，然后利用单应性变换把其他图像变换到该中心图像的视角下，再做一些后续的曝光补偿、图像融合等处理即可。但是这一技术有相当大的局限性，最简单的例子，不能直接用它拼出 $360^{\circ}$ 的全景图。

为什么呢？让我们来考虑图6中所示情形。可见，三条光线与 $P^{\prime}$ 相交的三点，原本是近乎等间距均匀分布的，而当它们映射到平面上后，间距却产生了巨大的差异。表现在图像上， $P^{\prime}$ 上的图像变换到上后，会产生相当大的拉伸畸变。当图中两相机的投影平面越来越趋于垂直时，这个畸变越来越大，以至于 $P^{\prime}$ 上普通的一点可能会被映射到平面的无穷远点。这时，这种简单的单应性拼接方案就彻底崩溃了。

图7. 曲面投影解决大视场角下的投影畸变问题

怎样得到更宽视场角下的拼接图？解决方法很简单。以上所出现的这种畸变源自于我们将点投影到一个平面上，设想将掰弯，或者直接弯曲成一个圆柱面，成为图7所示的样子，那原本被投影到平面无穷远处的点就被拉回来了。我们在圆柱面上选取一个足够均匀的坐标系，把坐标对应到像素坐标，就可以得到一个全景图了。

当然，针对不同的应用，我们还可以选取不同的投影曲面，比如选取球面用于 $360^{\circ} * 180^{\circ}$ 的球面全景图，甚至也可以选择一个立方体作为投影曲面。

3. 后续处理

至此全景拼接的几何原理就大致说完了，虽然我们还没有给出数学表达。为了先居高临下的了解整个拼接流程，我们不妨把后续处理的梗概也在此一说。

实际应用中为了创建出完美的全景图，有很多的问题需要考虑。最典型的问题有两个，一个是如何解决不同照片中曝光不一致的问题；一个是如何在拼接缝处完美平滑的融合两张图像的问题。

第一个由曝光补偿算法来解决，大体思路是估计两张图间的曝光差异，然后进行补偿。此处不多说。

第二个问题也有众多解决方案，最为著名的大概就属Multi-Band融合算法。该算法虽然八十年代就已提出，但其效果至今仍让人赞叹。在通常图像间失配程度不大的情况下，Multi-Band可以达到肉眼几乎不可分辨的融合效果。其原理也不复杂，下面略微一提。

融合两张图像，最直接的方案是在两张图像的重合区域用一个平滑渐变的权重对二者加权叠加。该方法的效果并不理想，关键原因是我们无法兼顾拼缝附近的局域细节和大尺度上两张图片的宏观特征（如光照）。当我们希望局域细节能够完好拼接时，需要用较小的平滑渐变区；而当我们希望要宏观上平滑过渡时，又想要较大的渐变区域。这二者似乎不可调和。

但事实上并非如此。Multi-Band的成功之处就是在于它同时兼顾两种需求，当融合宏观特征时，采用一个大的平滑渐变区；融合局域细节时，则采用小的平滑渐变区。那如何才能把这两种情况分开处理呢？很简单，把图像分解为不同频带的分量之加和，图像的宏观特征在它的低频分量图里，而局域特征在高频分量图里。

所以，Multi-Band算法的过程大致就是：把图像按照频率高低展开成一个金字塔，然后高低频分量各自按照不同的方式平滑加权并叠加，最后把各频带分量重新加和，得到最终的融合结果。

该算法融合效果虽好，但对于计算量要求较大，它需要创建多座金字塔并对金字塔进行各种运算，图像像素较高时，在CPU上要达到实时基本无望。当然，GPU上情况就不一样了，我们自己就实现了实时的Multi-Band融合算法，效果很好。

图像拼接算法(zz)

360°全景拼接技术简介

0. 引言

1. Homography

2. 曲面投影

3. 后续处理

猜你喜欢