我们在研究一个行列时,实际上是在研究其所蕴含的信息。
很多时候,我们并不关注内部的一些大数字,而是在意成分的互相关系。
所以在面对一些复杂的矩阵时,一个思路是被期待的:是否可以让复杂的行列通过某种变换,成为一个简单漂亮的行列,并且还可以尽可能地保留原矩阵的信息?
这样的变换方法被称为 对角化
请注意:特征值的讨论对象仅局限于 方阵,对于非方阵无法进行特征值的讨论,但是可以进行奇异值分解(SVD)
以下取系数域 K 为 R 或 C
# 特征值
为了解答第一个问题:到底什么样的信息是被需要的,需要引入以下内容
定义
令 A 为系数域 K 上的 n 阶方阵
若存在非零 n 维列向量 x∈Kn 和数 λ∈K,使得
Ax=λx
则称 λ 为矩阵 A 的 特征值 (Eigenvalue)「固有値」,x 为对应于 λ 的 特征向量 (Eigenvector)「固有ベクトル」
特征值是我们可以从一个复杂的矩阵中,首先提取出来的核心信息
它一定程度地指示了矩阵的在某个,以及多个方向上的伸缩比例
为了求解矩阵的特征值,先将条件式 Ax=λx 变形为
(A−λI)x=0
由于向量 x 非零,所以矩阵 A−λI 必然不可逆
由此可以得到特征值的判定条件
det(A−λI)=0
称该多项式为矩阵 A 的 特征多项式 (Characteristic Polynomial)「固有多項式」,记作 FA(λ)
解出该多项式的根即可得到矩阵 A 的所有特征值
显然:由于特征值是矩阵所蕴含的重要信息,那么如果两个不相等的矩阵具有相同的特征值,那么它们之间一定存在某种联系
命题
令 A,B 为系数域 K 上的 n 阶方阵
若存在可逆矩阵 P,使得
B=P−1AP
则称矩阵 A 与矩阵 B 相似,并且此时 A 与 B 具有相同的特征多项式,进而具有相同的特征值
证明
FB(λ)=det(B−λI)=det(P−1AP−λI)=det(P−1AP−λP−1P)=det(P−1(A−λI)P)=det(P−1)det(A−λI)det(P)=det(A−λI)=FA(λ)
□
在获取到矩阵的特征值后,可以依据特征值的定义
Ax=λx
求解出对应于每一个特征值的特征向量 x
这是一个非常简单的解线性方程组问题,可以写为
(A−λI)x=0
其中 λ 已知,所以通过行列变换对矩阵 A−λI 进行化简,最终解出 x 即可
请注意:由于 x 必须为非零向量,所以解出来的解空间必然至少为一维,即无论如何都有无数个解。但是可以在每一个解空间中随意选取(方便计算的)一个基底作为该特征值对应的特征向量。
通常来说,如果解特征多项式时遇到了重根,这也对应着这个重根所代表的解空间可能不止一维
称每个解空间为每个特征值对应的 特征子空间 (Eigenspace)「固有部分空間」,记作 Eλ,即
Eλ={x∈Kn∣(A−λI)x=0}
特征空间对于原矩阵来说是一个非常重要的空间
如果将矩阵视为线性映射,那么特征空间就是一个非常特殊的区域,使得原映射在该区域内的所有向量都仅仅被伸缩,而不会被旋转或者发生其他变化
现在整理上述概念,可以得到:
通过特征空间等概念,可以将原本矩阵所蕴含的信息,转换分解为,在各个特征空间中蕴含的信息。
这样一来,研究原矩阵得以转为研究各个特征空间中的表现,这等价于:矩阵对于各个特征向量究竟产生了什么影响
# 对角化
在确定什么样的信息应该被保留后,接下来就要考虑如何将矩阵转换为一个更简单的形式
显然,因为相似变换不会改变矩阵的特征值,所以是否可以利用相似变换来达到目的是首要考虑的问题
也就是说,是否存在一个可逆矩阵 P,使得 A 可以与一个仅含有对角成分的矩阵,即
P−1AP=D=⎝⎜⎜⎜⎜⎛μ10⋮00μ2⋮0⋯⋯⋱⋯00⋮μn⎠⎟⎟⎟⎟⎞
显然此时有等式 AP=PD 成立,通过对 P 进行列分解,可以得到
A(p1,p2,…,pn)=(p1,p2,…,pn)⎝⎜⎜⎜⎜⎛μ10⋮00μ2⋮0⋯⋯⋱⋯00⋮μn⎠⎟⎟⎟⎟⎞
可以获得 n 个等式
Api=μipi,i=1,2,…,n
注意 P 可逆的条件给出
- 没有任何一个 pi 为零向量
- 任意两个 pi,pj 都不可能相等
所以该等式组成立等价于:
- 每个 μi 都是矩阵 A 的相异的特征值
- 每个 pi 都是与 μi 对应的特征向量
于是对角化的充分必要条件为:是否存在 n 个线性无关的特征向量
并且,由于等式组中 μi 与 pi 标号一致,这意味着,矩阵 P 的拼接顺序会决定对角矩阵 D 的结果,并且 D 中的对角成分一定是矩阵 A 的特征值,即
(p1,p2,…,pn)−1A(p1,p2,…,pn)=⎝⎜⎜⎜⎜⎛λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎠⎟⎟⎟⎟⎞
由于一个行列所蕴含的信息等价于一个线性映射所表述的信息。所以可以参考以下示例
示例
令 V=R[x]2,即系数域为 R 的所有不超过 2 次的多项式构成的线性空间
定义线性变换
f:V→V,g(x)↦g(1−x)
求该线性映射在对角化下的新矩阵表示
解
首先,取 V 的标准基底
E=(1,x,x2)
计算线性映射在该基底下的矩阵表示
f(1)f(x)f(x2)=1=1−x=(1−x)2=1−2x+x2
所以矩阵表示为
A=⎝⎛1001−101−21⎠⎞
计算特征多项式
FA(λ)=det(A−λI)=(1−λ)2(−1−λ)
解出特征值为 λ1=1(重根),λ2=−1
接下来,求解特征值对应的特征向量
- 对于 λ1=1,解方程组
⎝⎛0001−201−20⎠⎞⎝⎛x1x2x3⎠⎞=⎝⎛000⎠⎞
得到
x=s⎝⎛100⎠⎞+t⎝⎛0−11⎠⎞,s,t∈R
- 对于 λ2=−1,解方程组
⎝⎛2001001−22⎠⎞⎝⎛x1x2x3⎠⎞=⎝⎛000⎠⎞
得到
x=r⎝⎛2110⎠⎞,r∈R
所以总共得到 3 个线性无关的特征向量
p1=⎝⎛100⎠⎞,p2=⎝⎛0−11⎠⎞,p3=⎝⎛2110⎠⎞
构成矩阵
P=⎝⎛1000−112110⎠⎞
此时,矩阵 A 可对角化,且对角化后的矩阵为
P−1AP=⎝⎛10001000−1⎠⎞
# 基于正交行列的对角化
目前讨论的对角化中,矩阵 P 仅要求可逆,也就是正则
若矩阵 A 可以被某类比正则的性质更强的矩阵对角化,那么其理应有一些特殊的性质
以下定义