相机成像：核心数学公式与参数详解

相机的成像过程（即“小孔成像”原理），本质上就是把真实 3D 世界中的一个物理坐标点 $[X, Y, Z]$，经过透视投影，变成二维照片上的一个像素点 $[u, v]$。

小孔成像几何原理图 (俯视图)

根据图中两个相似三角形的比例关系，可以一目了然得出： $\frac{x}{f} = \frac{X}{Z}$ $\Rightarrow$ $x = f \cdot \frac{X}{Z}$

在计算机视觉中，这一过程可以用下面这个优雅的矩阵乘法公式来完美表达：

\[ s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = \underbrace{\begin{bmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{bmatrix}}_{\text{内参 } K} \underbrace{\begin{bmatrix} r_{11} & r_{12} & r_{13} & t_x \\ r_{21} & r_{22} & r_{23} & t_y \\ r_{31} & r_{32} & r_{33} & t_z \end{bmatrix}}_{\text{外参 } [R|T]} \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix} \]

详细参数对照表

$[u, v]$ 照片上的 2D 像素坐标。例如，物体成像在照片的第 100 行，第 200 列。
$s$ 缩放比例因子。因为从 3D 投影到 2D 会丢失深度信息，这个常数代表了深度的缩放。
$[X, Y, Z]$ 物体在 3D 真实世界坐标系中的绝对物理坐标（通常单位为毫米）。

内参 (Intrinsics) 矩阵 K：代表相机出厂的物理结构

$f_x, f_y$ 相机在水平和垂直方向的像素焦距。它们决定了物体在照片上看起来被放大了多少倍。
👉 为什么会有两个焦距？点击查看 3D 动画解释
$c_x, c_y$ 光学中心（主点）。通常位于图像的几何中心附近，也就是镜头光轴穿过图像传感器感光平面的那个点。

外参 (Extrinsics) [R|T]：代表相机在空间中的姿态

$r_{11} \dots r_{33}$ 旋转矩阵 $R$ 的 9 个元素。它们记录了相机在 3D 空间中，相对于世界坐标系绕 X、Y、Z 轴的倾斜和旋转角度。
$t_x, t_y, t_z$ 平移向量 $T$ 的 3 个元素。分别代表相机光学中心距离世界坐标系原点，在水平、垂直、深度方向上的物理距离。

🤔 标定的终极目标是什么？
所谓的“相机标定”，就是我们拿着一个已知精确尺寸的棋盘格（已知 X,Y,Z），拍出照片并找到角点在照片上的位置（已知 u,v）。然后通过解一系列复杂的方程，逆向反推出这个公式里未知的内参 $K$ 和每一张照片的外参 $R, T$！