我们在研究一个行列时,实际上是在研究其所蕴含的信息。
很多时候,我们并不关注内部的一些大数字,而是在意成分的互相关系。
所以在面对一些复杂的矩阵时,一个思路是被期待的:是否可以让复杂的行列通过某种变换,成为一个简单漂亮的行列,并且还可以尽可能地保留原矩阵的信息?

这样的变换方法被称为 对角化

请注意:特征值的讨论对象仅局限于 方阵,对于非方阵无法进行特征值的讨论,但是可以进行奇异值分解(SVD)

以下取系数域 KKR\mathbb RC\mathbb C

# 特征值

为了解答第一个问题:到底什么样的信息是被需要的,需要引入以下内容

定义
AA 为系数域 KK 上的 nn 阶方阵
若存在非零 nn 维列向量 xKn\boldsymbol x \in K^n 和数 λK\lambda \in K,使得

Ax=λxA \boldsymbol x = \lambda \boldsymbol x

则称 λ\lambda 为矩阵 AA特征值 (Eigenvalue)「固有値」x\boldsymbol x 为对应于 λ\lambda特征向量 (Eigenvector)「固有ベクトル」

特征值是我们可以从一个复杂的矩阵中,首先提取出来的核心信息
它一定程度地指示了矩阵的在某个,以及多个方向上的伸缩比例

为了求解矩阵的特征值,先将条件式 Ax=λxA \boldsymbol x = \lambda \boldsymbol x 变形为

(AλI)x=0(A - \lambda I) \boldsymbol x = \boldsymbol 0

由于向量 x\boldsymbol x 非零,所以矩阵 AλIA - \lambda I 必然不可逆
由此可以得到特征值的判定条件

det(AλI)=0\det(A - \lambda I) = 0

称该多项式为矩阵 AA特征多项式 (Characteristic Polynomial)「固有多項式」,记作 FA(λ)F_A(\lambda)
解出该多项式的根即可得到矩阵 AA 的所有特征值


显然:由于特征值是矩阵所蕴含的重要信息,那么如果两个不相等的矩阵具有相同的特征值,那么它们之间一定存在某种联系

命题
A,BA, B 为系数域 KK 上的 nn 阶方阵
若存在可逆矩阵 PP,使得

B=P1APB = P^{-1} A P

则称矩阵 AA 与矩阵 BB 相似,并且此时 AABB 具有相同的特征多项式,进而具有相同的特征值

证明

FB(λ)=det(BλI)=det(P1APλI)=det(P1APλP1P)=det(P1(AλI)P)=det(P1)det(AλI)det(P)=det(AλI)=FA(λ)\begin{aligned} F_B(\lambda) &= \det(B - \lambda I) \\ &= \det(P^{-1} A P - \lambda I) \\ &= \det(P^{-1} A P - \lambda P^{-1} P) \\ &= \det(P^{-1} (A - \lambda I) P) \\ &= \det(P^{-1}) \det(A - \lambda I) \det(P) \\ &= \det(A - \lambda I) \\ &= F_A(\lambda) \end{aligned}

\square


在获取到矩阵的特征值后,可以依据特征值的定义

Ax=λxA \boldsymbol x = \lambda \boldsymbol x

求解出对应于每一个特征值的特征向量 x\boldsymbol x

这是一个非常简单的解线性方程组问题,可以写为

(AλI)x=0(A - \lambda I) \boldsymbol x = \boldsymbol 0

其中 λ\lambda 已知,所以通过行列变换对矩阵 AλIA - \lambda I 进行化简,最终解出 x\boldsymbol x 即可

请注意:由于 x\boldsymbol x 必须为非零向量,所以解出来的解空间必然至少为一维,即无论如何都有无数个解。但是可以在每一个解空间中随意选取(方便计算的)一个基底作为该特征值对应的特征向量。

通常来说,如果解特征多项式时遇到了重根,这也对应着这个重根所代表的解空间可能不止一维

称每个解空间为每个特征值对应的 特征子空间 (Eigenspace)「固有部分空間」,记作 EλE_\lambda,即

Eλ={xKn(AλI)x=0}E_\lambda = \{\boldsymbol x \in K^n \mid (A - \lambda I) \boldsymbol x = \boldsymbol 0\}

特征空间对于原矩阵来说是一个非常重要的空间
如果将矩阵视为线性映射,那么特征空间就是一个非常特殊的区域,使得原映射在该区域内的所有向量都仅仅被伸缩,而不会被旋转或者发生其他变化

现在整理上述概念,可以得到:
通过特征空间等概念,可以将原本矩阵所蕴含的信息,转换分解为,在各个特征空间中蕴含的信息。
这样一来,研究原矩阵得以转为研究各个特征空间中的表现,这等价于:矩阵对于各个特征向量究竟产生了什么影响

# 对角化

在确定什么样的信息应该被保留后,接下来就要考虑如何将矩阵转换为一个更简单的形式
显然,因为相似变换不会改变矩阵的特征值,所以是否可以利用相似变换来达到目的是首要考虑的问题

也就是说,是否存在一个可逆矩阵 PP,使得 AA 可以与一个仅含有对角成分的矩阵,即

P1AP=D=(μ1000μ2000μn)P^{-1} A P = D = \begin{pmatrix} \mu_1 & 0 & \cdots & 0 \\ 0 & \mu_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \mu_n \end{pmatrix}

显然此时有等式 AP=PDA P = P D 成立,通过对 PP 进行列分解,可以得到

A(p1,p2,,pn)=(p1,p2,,pn)(μ1000μ2000μn)A (\boldsymbol p_1, \boldsymbol p_2, \ldots, \boldsymbol p_n) = (\boldsymbol p_1, \boldsymbol p_2, \ldots, \boldsymbol p_n) \begin{pmatrix} \mu_1 & 0 & \cdots & 0 \\ 0 & \mu_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \mu_n \end{pmatrix}

可以获得 nn 个等式

Api=μipi,i=1,2,,nA \boldsymbol p_i = \mu_i \boldsymbol p_i, \quad i = 1, 2, \ldots, n

注意 PP 可逆的条件给出

  • 没有任何一个 pi\boldsymbol p_i 为零向量
  • 任意两个 pi,pj\boldsymbol p_i, \boldsymbol p_j 都不可能相等

所以该等式组成立等价于:

  • 每个 μi\mu_i 都是矩阵 AA 的相异的特征值
  • 每个 pi\boldsymbol p_i 都是与 μi\mu_i 对应的特征向量

于是对角化的充分必要条件为:是否存在 nn 个线性无关的特征向量

并且,由于等式组中 μi\mu_ipi\boldsymbol p_i 标号一致,这意味着,矩阵 PP 的拼接顺序会决定对角矩阵 DD 的结果,并且 DD 中的对角成分一定是矩阵 AA 的特征值,即

(p1,p2,,pn)1A(p1,p2,,pn)=(λ1000λ2000λn)(\boldsymbol p_1, \boldsymbol p_2, \ldots, \boldsymbol p_n)^{-1} A (\boldsymbol p_1, \boldsymbol p_2, \ldots, \boldsymbol p_n) = \begin{pmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix}


由于一个行列所蕴含的信息等价于一个线性映射所表述的信息。所以可以参考以下示例

示例
V=R[x]2V = \mathbb R[x]_2,即系数域为 R\mathbb R 的所有不超过 2 次的多项式构成的线性空间
定义线性变换

f:VV,g(x)g(1x)f: V \to V, \quad g(x) \mapsto g(1-x)

求该线性映射在对角化下的新矩阵表示

首先,取 VV 的标准基底

E=(1,x,x2)\mathscr E = (1, x, x^2)

计算线性映射在该基底下的矩阵表示

f(1)=1f(x)=1xf(x2)=(1x)2=12x+x2\begin{aligned} f(1) &= 1 \\ f(x) &= 1 - x \\ f(x^2) &= (1 - x)^2 = 1 - 2x + x^2 \end{aligned}

所以矩阵表示为

A=(111012001)A = \begin{pmatrix} 1 & 1 & 1 \\ 0 & -1 & -2 \\ 0 & 0 & 1 \end{pmatrix}

计算特征多项式

FA(λ)=det(AλI)=(1λ)2(1λ)F_A(\lambda) = \det(A - \lambda I) = (1 - \lambda)^2 (-1 - \lambda)

解出特征值为 λ1=1\lambda_1 = 1(重根),λ2=1\lambda_2 = -1
接下来,求解特征值对应的特征向量

  • 对于 λ1=1\lambda_1 = 1,解方程组

(011022000)(x1x2x3)=(000)\begin{pmatrix} 0 & 1 & 1 \\ 0 & -2 & -2 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}

得到

x=s(100)+t(011),s,tR\boldsymbol x = s \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} + t \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}, \quad s, t \in \mathbb R

  • 对于 λ2=1\lambda_2 = -1,解方程组

(211002002)(x1x2x3)=(000)\begin{pmatrix} 2 & 1 & 1 \\ 0 & 0 & -2 \\ 0 & 0 & 2 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}

得到

x=r(1210),rR\boldsymbol x = r \begin{pmatrix} \frac{1}{2} \\ 1 \\ 0 \end{pmatrix}, \quad r \in \mathbb R

所以总共得到 3 个线性无关的特征向量

p1=(100),p2=(011),p3=(1210)\boldsymbol p_1 = \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}, \quad \boldsymbol p_2 = \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}, \quad \boldsymbol p_3 = \begin{pmatrix} \frac{1}{2} \\ 1 \\ 0 \end{pmatrix}

构成矩阵

P=(1012011010)P = \begin{pmatrix} 1 & 0 & \frac{1}{2} \\ 0 & -1 & 1 \\ 0 & 1 & 0 \end{pmatrix}

此时,矩阵 AA 可对角化,且对角化后的矩阵为

P1AP=(100010001)P^{-1} A P = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix}

# 基于正交行列的对角化

目前讨论的对角化中,矩阵 PP 仅要求可逆,也就是正则
若矩阵 AA 可以被某类比正则的性质更强的矩阵对角化,那么其理应有一些特殊的性质

以下定义