← 返回标定动画
相机成像:核心数学公式与参数详解
相机的成像过程(即“小孔成像”原理),本质上就是把真实 3D 世界中的一个物理坐标点 $[X, Y, Z]$,经过透视投影,变成二维照片上的一个像素点 $[u, v]$。
小孔成像几何原理图 (俯视图)
根据图中两个相似三角形的比例关系,可以一目了然得出:
$\frac{x}{f} = \frac{X}{Z}$ $\Rightarrow$ $x = f \cdot \frac{X}{Z}$
在计算机视觉中,这一过程可以用下面这个优雅的矩阵乘法公式来完美表达:
\[
s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix}
=
\underbrace{\begin{bmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{bmatrix}}_{\text{内参 } K}
\underbrace{\begin{bmatrix} r_{11} & r_{12} & r_{13} & t_x \\ r_{21} & r_{22} & r_{23} & t_y \\ r_{31} & r_{32} & r_{33} & t_z \end{bmatrix}}_{\text{外参 } [R|T]}
\begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix}
\]
详细参数对照表
-
$[u, v]$
照片上的 2D 像素坐标。例如,物体成像在照片的第 100 行,第 200 列。
-
$s$
缩放比例因子。因为从 3D 投影到 2D 会丢失深度信息,这个常数代表了深度的缩放。
-
$[X, Y, Z]$
物体在 3D 真实世界坐标系中的绝对物理坐标(通常单位为毫米)。
内参 (Intrinsics) 矩阵 K:代表相机出厂的物理结构
-
$f_x, f_y$
相机在水平和垂直方向的像素焦距。它们决定了物体在照片上看起来被放大了多少倍。
👉 为什么会有两个焦距?点击查看 3D 动画解释
-
$c_x, c_y$
光学中心(主点)。通常位于图像的几何中心附近,也就是镜头光轴穿过图像传感器感光平面的那个点。
外参 (Extrinsics) [R|T]:代表相机在空间中的姿态
-
$r_{11} \dots r_{33}$
旋转矩阵 $R$ 的 9 个元素。它们记录了相机在 3D 空间中,相对于世界坐标系绕 X、Y、Z 轴的倾斜和旋转角度。
-
$t_x, t_y, t_z$
平移向量 $T$ 的 3 个元素。分别代表相机光学中心距离世界坐标系原点,在水平、垂直、深度方向上的物理距离。
🤔 标定的终极目标是什么?
所谓的“相机标定”,就是我们拿着一个已知精确尺寸的棋盘格(已知 X,Y,Z),拍出照片并找到角点在照片上的位置(已知 u,v)。然后通过解一系列复杂的方程,逆向反推出这个公式里未知的内参 $K$ 和每一张照片的外参 $R, T$!