全景拼接学习-原理篇 (2) 单张图片单相机成像模型

教程地址 https://zhuanlan.zhihu.com/p/135943895

相信不少学过图像处理的同学都接触相机标定、图像拼接、单应性、对极几何等计算摄影学内容，体验过学习时被恐惧支配的感觉。本文主要分析相机数学模型，并简单介绍如何使用相机测距，帮助初学者快速入门

一、相机数学模型

1从世界坐标系到相机坐标系

假设在某间房子中放了一台相机拍照。为了方便测量，我们以房子的某处墙角为原心建立直角坐标系，即世界坐标系。为了研究相机模型，要做的第一步就是将世界坐标系转化为以相机光心为原点的相机坐标系，以相机的视角来“看”外部世界。

从世界坐标系 $x_wy_wz_w$ 到以相机光心为坐标原点的 $x_cy_zz_c$ 的相机坐标系，实际上就是一个三维直角坐标系的旋转与平移变换，可以表示为：

$\begin{pmatrix} x_c \\ y_c \\ z_c\\ \end{pmatrix} =R_{3\times3} \begin{pmatrix} x_w \\ y_w\\ z_w \\ \end{pmatrix} +T_{3\times1} \\$

写成齐次坐标矩阵乘法形式：

$\begin{pmatrix} x_c \\ y_c \\ z_c\\ 1 \\ \end{pmatrix} =\begin{bmatrix} R_{3\times3} & T_{3\times1} \\ 0^T &1 \\ \end{bmatrix} \begin{pmatrix} x_w \\ y_w\\ z_w\\ 1 \\ \end{pmatrix} = \begin{bmatrix} r_{11} & r_{13} & r_{13} & t_x \\ r_{21} & r_{22} & r_{23} & t_y \\ r_{31} & r_{32} & r_{33} & t_z \\ 0 & 0 & 0 & 1 \end{bmatrix}\begin{pmatrix} x_w \\ y_w\\ z_w\\ 1 \\ \end{pmatrix}\\$

需要特别注意的是，其中旋转矩阵 $R$ 是正交矩阵（即 $RR^T=R^TR=I$ ， $I$ 是单位矩阵），这是一个非常重要的性质。

为何 $R$ 是正交矩阵？这里从简单的情形说起。如下图将坐标系绕 $z$ 轴旋转 $\alpha$ 角，用矩阵可以表示为：

用矩阵可以表示为

$\begin{pmatrix} x' \\ y' \\ z' \end{pmatrix} = \begin{bmatrix} \text{cos}\alpha & -\text{sin}\alpha & 0\\ \text{sin}\alpha & \text{cos}\alpha & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{pmatrix} x \\ y \\z \\ \end{pmatrix}\Rightarrow R =\begin{bmatrix} \text{cos}\alpha & -\text{sin}\alpha & 0\\ \text{sin}\alpha & \text{cos}\alpha & 0 \\ 0 & 0 & 1 \end{bmatrix} \\$

显然有 $RR^T=R^TR=I$ 成立。更复杂情况类似，感兴趣的朋友可以自行探索。

从相机坐标系到成像平面坐标系

现在已经以相机的视角看外部世界了，接下来要做的就是将外部世界的点投影在成像平面上。假设在光心 $o_c$ 后距离 $f$ 处有一个接收并记录光信号的传感器，那么传感器所在的平面就是成像平面。这里的 $f$ 就是相机的物理焦距（单位：米）。

这是一个将三维空间中的点 $(x_c,y_c,z_c)$ 通过光心 $o_c$ 投影到成像平面的过程，并在成像平面形成倒像。这里有一个问题，为何平时我们用手机、数码相机拍照时生成的图片不是倒的？这是由于手机、数码相机等拍照设备内部软件在处理时做了自动翻转。

从侧面看上述模型，在光心前方 $f$ 位置存在一个与成像平面对称的等效成像平面（等效成像平面中的像与成像平面的像大小一样且相反）。

由于成像平面中的像是倒像（需要添加负号，不方便数学描述），我们不妨在等效成像平面看，并建立坐标系 $x_ny_n$ 。

那么在上图中，由相似三角形原理可以得出：

$x_n = f\frac{x_c}{z_c}\\$

$y_n=f\frac{y_c}{z_c}\\$

将上式整理写成齐次坐标矩阵乘法形式：

$z_c\begin{pmatrix} x_n \\ y_n \\ 1 \end{pmatrix}=\begin{bmatrix} f &0&0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix}\begin{pmatrix} x_c \\ y_c \\ z_c\\ 1 \end{pmatrix}\\$

从成像平面坐标系到像素坐标系

对于现在的数字相机，一般使用CMOS或CCD作为传感器将光信号转换为电信号，并记录下来生成数字图像。与传统胶片不同，这类传感器是由一个个感光原件组成的。在工作时每个感光原件独立记录自己所接收到的光信号，导致生成的数字图像是离散的。简单说，数字图像就是一个由离散像素点组成的矩阵。

那么从成像平面坐标系 $x_ny_n$ 到像素坐标系 $uv$ 就是一个离散化的过程。之前所有坐标系（包括世界坐标系 $x_wy_wz_w$ 、相机坐标系 $x_cy_cz_c$ 、成像平面坐标系 $x_ny_n$ ）的单位都是连续的“米”，而 $uv$ 像素坐标系的单位是离散的“像素”。

从 $x_ny_n$ 到 $uv$ 的变换可以表示为：

$\begin{pmatrix} u \\ v \\ 1 \end{pmatrix}=\begin{bmatrix} 1 & 0 & u_0 \\ 0 & 1 & v_0 \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} \frac{1}{dx} & 0 & 0 \\ 0 & \frac{1}{dy} & 0 \\ 0 & 0 & 1 \end{bmatrix}\begin{pmatrix} x_n \\ y_n \\ 1 \end{pmatrix}\\$

这个变换有两个步骤组成：

通过 $dx$ 和 $dy$ 将连续坐标量化为像素。其中 $dx$ 和 $dy$ 分别表示每个像素在 $x$ 和 $y$ 方向的实际大小（单位：米/像素），由相机传感器中每个感光原件大小决定。
由于数字图像一般习惯以左上角为原点，那么需要将图像对称中心从 $o_n$ 位置平移 $(u_0,v_0)$ 像素到左上角点。

这样，通过几个步骤相机将世界坐标系 $x_wy_wz_w$ 中的点（单位：米）最终变换为像素坐标系 $uv$ 中的点（单位：像素）。那么最终变换关系是：

$z_c\begin{pmatrix} u \\ v \\ 1 \end{pmatrix}=\begin{bmatrix} \frac{f}{dx}&0&u_0&0 \\ 0 & \frac{f}{dy} & v_0 & 0 \\ 0 & 0 & 1 & 0\end{bmatrix}\begin{bmatrix} R_{3\times3} & T_{3\times1} \\ 0^T &1 \\ \end{bmatrix}\begin{pmatrix} x_w \\ y_w \\ z_w \\ 1 \end{pmatrix}\\$

13个位置参数 13组匹配点计算出来

其中 $f$ 是相机物理焦距（单位：米）， $dx$ 和 $dy$ 表示每个像素在 $x$ 和 $y$ 方向的实际大小（单位：米/像素）， $u_0$ 和 $v_0$ 表示图像对称中心在 $uv$ 像素坐标系中的的位置（单位：像素）。简记为：

$zp=K[R\ T]P\\$

或更简记为：

$zp=MP\\$

这里的 $K$ 是相机内参矩阵，由相机内部光学物理结构决定。

$K=\begin{bmatrix} \frac{f}{dx}&0&u_0&0 \\ 0 & \frac{f}{dy} & v_0 & 0 \\ 0 & 0 & 1 & 0\end{bmatrix}\\$

其中 $f_x=\frac{f}{dx}$ ， $f_y=\frac{f}{dy}$ 。

而 $R$ 和 $T$ 是相机外参矩阵，由相机摆放位置决定。

显然相机标定就是计算内、外参矩阵的过程。

二、视觉测距

单目测距（单目距离估计）

那么有一个问题，在已知所有相机参数 $K$ 、 $R$ 和 $T$ 的情况下，能否通过图像坐标 $p$ 反推出对应的世界坐标 $P$ 呢？

这里我们从几何关系上看：只要世界中的点 $P$ 在 $\overrightarrow{o_cP_1}$ 射线上，那么最终都会通过相机投影到图像中的 $p$ 点，所以单摄像头无法精确测距。相机模型本质是一种从世界坐标系3D->像素坐标系2D的投影变换，在投影变换中丢失了深度 $z$ 信息。

但是有时候我们又特别需要使用单个摄像头测距：一个典型场景就是在车辆自动驾驶中使用单摄像头识别前方车辆并测距。一般的做法是加入一定的约束条件后单目估计距离。假设相机 $z_c$ 轴与水平地面平行，到地面高度为 $h$ ，且被测物体在地面上（加入的约束条件）；在相机下方 $h_1$ 距离有一个标定板，上面画的是与 $x_c$ 轴水平距离的刻度。在测距前首先拍摄一张标定板图像；当测距时可以根据地面上的物体在图像中的位置读取 $d_1$ ，此时可以估计出地面物体与相机真实距离为：

$d=h\frac{d_1}{h_1}\\$

其中 $h$ 和 $h_1$ 已知，而 $d_1$ 可以从标定板图像中读取出来。需要说明，这只是一种估计方法，并非精确计算。

双目测距

再来看看双目（即两个相机）的测距问题。为了简化问题，假设在同一平面有 $o_c$ 和 $o'_c$ 两个完全一样的相机，他们的相机坐标系 $x_c$ 与 $x'_c$ 轴在同一直线上且 $z_c$ 平行于 $z'_c$ 。显然可以通过测量获得两个相机间的距离 $t_x$ ，然后通过标定可以知道相机 $f_x$ 、 $f_y$ 、 $u_0$ 和 $v_0$ 参数。

特别注意，双目测距要求两个相机坐标轴 $z_c$ 和 $z'_c$ 平行，否则就是对极几何问题了。

双目测距

那么两个相机分别对远处距离 $z_c$ 处同一目标拍照得到左、右张两张图像。由于视角不同，同一点在两张图像像素位置不同，即存在视差 $d=u'-u$ 。

已知相机坐标系 $x_cy_cz_c$ 变换为像素坐标系 $uv$ 的公式为：

$z_c\begin{pmatrix} u \\ v \\ 1 \end{pmatrix}=\begin{bmatrix} f_x&0&u_0&0 \\ 0 & f_y & v_0 & 0 \\ 0 & 0 & 1 & 0\end{bmatrix}\begin{pmatrix} x_c \\ y_c \\ z_c \\ 1 \end{pmatrix}\\$

其中 $f_x=\frac{f}{dx}$ ， $f_y=\frac{f}{dy}$ 。那么从上式得出，对于左边的相机：

$z_c\cdot u=f_xx_c+z_c\cdot u_0\\$

对于右边的相机：

$z'_c\cdot u'=f_xx'_c+z'_c\cdot u_0\\$

其中 $z_c=z'_c$ 。上面两式相减得：

$z_c\cdot d=f_x(x'_c-x_c)\\$

由于 $x'_c=x_c-t_x$ ，那么有：

$z_c\cdot d=f_x(-t_x)\Rightarrow |z_c|=f_x\cdot |\frac{t_x}{d}|\\$

其中 $f_x$ 可以通过相机标定获得， $t_x$ 可以测量获得， $d$ 可以通过左、右张两张图像计算视差获得，则 $z_c$ 能够精确计算出来。

虽然可以通过双目可以精确测距，但是在实际中也存在问题：

双目测距要求 $z_c$ 和 $z_c'$ 轴平行，测距精度严重依赖于 $z_c$ 和 $z_c'$ 的平行程度。
为了计算视差 $d_1$ ，需要匹配世界中同一点 $P_1$ 在左右两幅图像中的像素点 $p_1$ 和 $p_1'$ ，即双目立体匹配。在复杂光照和复杂场景下，如何准确双目立体匹配本身就是很难的问题。
对于世界中越远的点 $P_2$ ，其在左右视图中的视差 $d_2$ 越小，测距结果越容易受到双目立体匹配误差影响（即双目测距精度与被测物体距离成反相关）。

所以，单目估计距离简单但是不精确，双目测距精确但是算法复杂且不稳定。