在之前的章节中，我们一直在追求矩阵的对角化。
然而，对角化（尤其是正交对角化）对矩阵的要求非常苛刻：

必须是方阵
必须有足够的特征向量
若要正交对角化，甚至必须是正规矩阵（实对称矩阵）

现实世界中的数据矩阵往往是长方形的（ $m \times n$ ），且未必具备良好的对称性。
是否存在一种通用的 “对角化”，可以适用于任意矩阵，并且保持正交变换的优良性质？
答案是肯定的，这就是线性代数中最伟大的定理之一：奇异值分解。

# 奇异值的引入

对于任意 $m \times n$ 矩阵 $A$ ，我们虽然不能直接讨论特征值（因为 $A \boldsymbol x$ 与 $\boldsymbol x$ 维度不同），但我们可以通过构造方阵来 “借用” 谱理论的成果。

考虑两个对称矩阵：

$A^T A$ ： $n \times n$ 实对称矩阵（且半正定）
$A A^T$ ： $m \times m$ 实对称矩阵（且半正定）

以 $A^T A$ 为例，根据实对称矩阵的性质，它必然可以被正交对角化，且特征值均为非负实数。
设 $A^T A$ 的特征值为 $\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_n \geq 0$ 。

定义
令 $A$ 为 $m \times n$ 实矩阵， $\lambda_1, \dots, \lambda_n$ 为 $A^T A$ 的特征值。
称

$\sigma_i = \sqrt{\lambda_i}, \quad i = 1, \dots, n$

为矩阵 $A$ 的 奇异值 (Singular Value)「特異値」。

通常将奇异值按降序排列： $\sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r > 0 = \dots = 0$ 。
其中非零奇异值的个数 $r$ 正是矩阵的秩 $\mathrm{rank}(A)$ 。

奇异值的几何意义是：矩阵 $A$ 将单位球映射为椭球后，椭球各个半轴的长度。

# SVD 定理与几何意义

SVD 揭示了线性变换 $A: \mathbb{R}^n \to \mathbb{R}^m$ 的本质结构：
旋转 (Rotation) $\to$ 拉伸 (Stretching) $\to$ 旋转 (Rotation)

定理 奇异值分解 (SVD)
令 $A$ 为 $m \times n$ 实矩阵，且 $\mathrm{rank}(A) = r$ 。
则存在 $m$ 阶正交矩阵 $U$ 和 $n$ 阶正交矩阵 $V$ ，使得

$A = U \Sigma V^T$

其中 $\Sigma$ 是 $m \times n$ 的 “对角” 矩阵（只有主对角线有元素）：

$\Sigma = \begin{pmatrix} D & O \\ O & O \end{pmatrix}_{m \times n}, \quad D = \mathrm{diag}(\sigma_1, \sigma_2, \dots, \sigma_r)$

且 $\sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r > 0$ 为 $A$ 的非零奇异值。

$U$ 的列向量 $\boldsymbol u_i$ 称为 左奇异向量 (Left Singular Vector)「左特異ベクトル」。
$V$ 的列向量 $\boldsymbol v_i$ 称为 右奇异向量 (Right Singular Vector)「右特異ベクトル」。

该定理指出，任意矩阵都可以分解为三个矩阵的乘积：

$A = \underbrace{(\boldsymbol u_1 \dots \boldsymbol u_m)}_{U} \underbrace{\begin{pmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \\ & & & 0 \end{pmatrix}}_{\Sigma} \underbrace{\begin{pmatrix} \boldsymbol v_1^T \\ \vdots \\ \boldsymbol v_n^T \end{pmatrix}}_{V^T}$

这也意味着，我们总可以找到两组正交归一基（定义域中的 $V$ 和陪域中的 $U$ ），使得 $A$ 在这两组基下的矩阵表示为对角阵 $\Sigma$ 。
即：

$A \boldsymbol v_i = \begin{cases} \sigma_i \boldsymbol u_i & (1 \leq i \leq r) \\ \boldsymbol 0 & (i > r) \end{cases}$

# 构造与证明

SVD 的证明过程实际上就是构造 $U$ 和 $V$ 的过程。

证明

第一步：构造 $V$
由于 $A^T A$ 是实对称矩阵，存在 $n$ 阶正交矩阵 $V = (\boldsymbol v_1, \dots, \boldsymbol v_n)$ 使得

$V^T (A^T A) V = \mathrm{diag}(\lambda_1, \dots, \lambda_n)$

其中 $\lambda_1 \geq \dots \geq \lambda_r > 0$ ，而 $\lambda_{r+1} = \dots = \lambda_n = 0$ 。
此时 $\{\boldsymbol v_1, \dots, \boldsymbol v_n\}$ 是 $\mathbb{R}^n$ 的一组正交归一基。

第二步：观察 $A \boldsymbol v_i$ 的正交性
对于 $i \neq j$ ，计算向量 $A \boldsymbol v_i$ 与 $A \boldsymbol v_j$ 的内积：

$\begin{aligned} \langle A \boldsymbol v_i, A \boldsymbol v_j \rangle &= (A \boldsymbol v_i)^T (A \boldsymbol v_j) \\ &= \boldsymbol v_i^T A^T A \boldsymbol v_j \\ &= \boldsymbol v_i^T (\lambda_j \boldsymbol v_j) \\ &= \lambda_j \boldsymbol v_i^T \boldsymbol v_j = 0 \quad (\text{因 } \boldsymbol v_i \perp \boldsymbol v_j) \end{aligned}$

这说明 $\{A \boldsymbol v_1, \dots, A \boldsymbol v_n\}$ 是一组正交向量。

第三步：计算模长与归一化

$\|A \boldsymbol v_i\|^2 = \langle A \boldsymbol v_i, A \boldsymbol v_i \rangle = \lambda_i = \sigma_i^2$

对于 $1 \leq i \leq r$ ， $\sigma_i > 0$ ，定义单位向量

$\boldsymbol u_i := \frac{1}{\sigma_i} A \boldsymbol v_i$

此时 $\{\boldsymbol u_1, \dots, \boldsymbol u_r\}$ 是 $\mathbb{R}^m$ 中的一组正交归一向量。
对于 $i > r$ ， $\|A \boldsymbol v_i\|^2 = 0 \implies A \boldsymbol v_i = \boldsymbol 0$ 。

第四步：扩充 $U$
利用 Gram-Schmidt 方法将 $\{\boldsymbol u_1, \dots, \boldsymbol u_r\}$ 扩充为 $\mathbb{R}^m$ 的正交归一基 $\{\boldsymbol u_1, \dots, \boldsymbol u_r, \boldsymbol u_{r+1}, \dots, \boldsymbol u_m\}$ 。
构造正交矩阵 $U = (\boldsymbol u_1 \dots \boldsymbol u_m)$ 。

第五步：验证分解
计算 $U^T A V$ 的元素 $(U^T A V)_{ij} = \boldsymbol u_i^T A \boldsymbol v_j$ 。

当 $1 \leq j \leq r$ 时： $A \boldsymbol v_j = \sigma_j \boldsymbol u_j$ 。
$\boldsymbol u_i^T (\sigma_j \boldsymbol u_j) = \sigma_j \delta_{ij}$ 。
即只有对角元 $(i,i)$ 为 $\sigma_i$ 。
当 $j > r$ 时： $A \boldsymbol v_j = \boldsymbol 0$ 。
$\boldsymbol u_i^T \boldsymbol 0 = 0$ 。

综上， $U^T A V = \Sigma$ ，即 $A = U \Sigma V^T$ 。
$\square$

通过 SVD，我们可以完美地看清矩阵的四个基本子空间的结构：

命题 SVD 与子空间
若 $A = U \Sigma V^T$ ，其中 $\sigma_1 \dots \sigma_r > 0$ 。

列空间 $C(A)$ ：由 $U$ 的前 $r$ 列 $\{\boldsymbol u_1, \dots, \boldsymbol u_r\}$ 张成。
左零空间 $N(A^T)$ ：由 $U$ 的后 $m-r$ 列 $\{\boldsymbol u_{r+1}, \dots, \boldsymbol u_m\}$ 张成。
行空间 $C(A^T)$ ：由 $V$ 的前 $r$ 列 $\{\boldsymbol v_1, \dots, \boldsymbol v_r\}$ 张成。
零空间 $N(A)$ ：由 $V$ 的后 $n-r$ 列 $\{\boldsymbol v_{r+1}, \dots, \boldsymbol v_n\}$ 张成。

示例
求矩阵

$A = \begin{pmatrix} 1 & 1 \\ 0 & 0 \\ 1 & 1 \end{pmatrix}$

的奇异值分解。

解

这是一个 $3 \times 2$ 矩阵。
1. 计算 $A^T A$ 及其特征值（求 $V$ 和 $\Sigma$ ）

$A^T A = \begin{pmatrix} 1 & 0 & 1 \\ 1 & 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ 0 & 0 \\ 1 & 1 \end{pmatrix} = \begin{pmatrix} 2 & 2 \\ 2 & 2 \end{pmatrix}$

特征多项式 $\det(\lambda E - A^T A) = \lambda^2 - 4\lambda = \lambda(\lambda - 4)$ 。
特征值： $\lambda_1 = 4, \lambda_2 = 0$ 。
奇异值： $\sigma_1 = \sqrt{4} = 2, \sigma_2 = 0$ 。秩 $r=1$ 。
故 $\Sigma = \begin{pmatrix} 2 & 0 \\ 0 & 0 \\ 0 & 0 \end{pmatrix}$ 。

对应 $\lambda_1 = 4$ 的单位特征向量： $\boldsymbol v_1 = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ 1 \end{pmatrix}$ 。
对应 $\lambda_2 = 0$ 的单位特征向量： $\boldsymbol v_2 = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 1 \end{pmatrix}$ 。
故 $V = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & -1 \\ 1 & 1 \end{pmatrix}$ 。

2. 计算 $U$
对于非零奇异值 $\sigma_1 = 2$ ，计算 $\boldsymbol u_1$ ：

$\boldsymbol u_1 = \frac{1}{\sigma_1} A \boldsymbol v_1 = \frac{1}{2} \begin{pmatrix} 1 & 1 \\ 0 & 0 \\ 1 & 1 \end{pmatrix} \frac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ 1 \end{pmatrix} = \frac{1}{2\sqrt{2}} \begin{pmatrix} 2 \\ 0 \\ 2 \end{pmatrix} = \begin{pmatrix} \frac{1}{\sqrt{2}} \\ 0 \\ \frac{1}{\sqrt{2}} \end{pmatrix}$

扩充 $\boldsymbol u_1$ 为 $\mathbb{R}^3$ 的标准正交基。
我们需要找两个与 $\boldsymbol u_1$ 正交的单位向量。
显然 $\boldsymbol u_2 = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix}$ 是一个。
再找 $\boldsymbol u_3$ ，可以选 $\boldsymbol u_1 \times \boldsymbol u_2$ 或者观察法：
$\boldsymbol u_3 = \begin{pmatrix} \frac{1}{\sqrt{2}} \\ 0 \\ -\frac{1}{\sqrt{2}} \end{pmatrix}$ 。
故 $U = \begin{pmatrix} \frac{1}{\sqrt{2}} & 0 & \frac{1}{\sqrt{2}} \\ 0 & 1 & 0 \\ \frac{1}{\sqrt{2}} & 0 & -\frac{1}{\sqrt{2}} \end{pmatrix}$ 。

3. 组合结果

$A = \begin{pmatrix} \frac{1}{\sqrt{2}} & 0 & \frac{1}{\sqrt{2}} \\ 0 & 1 & 0 \\ \frac{1}{\sqrt{2}} & 0 & -\frac{1}{\sqrt{2}} \end{pmatrix} \begin{pmatrix} 2 & 0 \\ 0 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{pmatrix}$

注意最后的 $V^T$ 是 $V$ 的转置。
$\square$

# 低秩近似与 Eckart-Young 定理

SVD 还可以写成加法分解的形式：

$A = \sum_{i=1}^r \sigma_i \boldsymbol u_i \boldsymbol v_i^T$

这表明 $A$ 是 $r$ 个秩为 1 的矩阵的加权和，权重就是奇异值。
由于 $\sigma_1$ 最大，第一项包含了 $A$ 最大的 “能量” 或信息。
如果我们只保留前 $k$ 项（ $k < r$ ），就得到了矩阵 $A$ 的最佳低秩近似。

定理 Eckart-Young 定理
令 $A_k = \sum_{i=1}^k \sigma_i \boldsymbol u_i \boldsymbol v_i^T$ 。
则对于任意秩为 $k$ 的矩阵 $B$ ，都有

$\|A - A_k\|_F \leq \|A - B\|_F$

即 $A_k$ 是 Frobenius 范数意义下，最接近 $A$ 的秩 $k$ 矩阵。

这就是图像压缩的原理：仅存储前 $k$ 个奇异值和对应的向量，就可以还原出图像的主要特征，丢弃的通常是噪音或细节。

内容已经过 Gemini 3.0 Pro 审查

# 奇异值的引入

# SVD 定理与几何意义

# 构造与证明

# 低秩近似与 Eckart-Young 定理

【线性代数】2-简化阶梯形

【线性代数】15-极小多项式与单因子