我们在研究一个行列时,实际上是在研究其所蕴含的信息。
很多时候,我们并不关注内部的一些大数字,而是在意成分的互相关系。
所以在面对一些复杂的矩阵时,一个思路是被期待的:是否可以让复杂的行列通过某种变换,成为一个简单漂亮的行列,并且还可以尽可能地保留原矩阵的信息?
请注意:特征值的讨论对象仅局限于 方阵,对于非方阵无法进行特征值的讨论,但是可以进行奇异值的讨论
# 特征值
为了解答第一个问题:到底什么样的信息是被需要的,需要引入以下内容
定义
令 A 为系数域 F 上的 n 阶方阵
称数 λ∈K 为矩阵 A 的 特征值 (Eigenvalue)「固有値」,当且仅当存在非零列向量 x∈Kn,使得
Ax=λx
称对应的向量 x 为矩阵 A 关于特征值 λ 的 特征向量 (Eigenvector)「固有ベクトル」
特征值是我们可以从一个复杂的矩阵中,首先提取出来的核心信息
它一定程度地指示了矩阵的在某个,以及多个方向上的伸缩比例
为了求解矩阵的特征值,先将条件式 Ax=λx 变形为
(A−λI)x=0
解向量 x 非零等价于存在非自明解,等价于矩阵 A−λI 不可逆
由此可以得到特征值的等价条件
det(A−λI)=0
称 det(A−λI) 为矩阵 A 的 特征多项式 (Characteristic Polynomial)「固有多項式」,记作 FA(λ)
解出该方程的根即可得到矩阵 A 的所有特征值
显然:由于特征值是矩阵所蕴含的重要信息,那么如果两个不相等的矩阵具有相同的特征值,那么它们之间一定存在某种联系
命题
令 A,B 为系数域 K 上的 n 阶方阵
若存在可逆矩阵 P,使得
B=P−1AP
则称矩阵 A 与矩阵 B 相似,并且此时 A 与 B 具有相同的特征多项式,进而具有相同的特征值
证明
FB(λ)=det(B−λI)=det(P−1AP−λI)=det(P−1AP−λP−1P)=det(P−1(A−λI)P)=det(P−1)det(A−λI)det(P)=det(A−λI)=FA(λ)
□
在确定什么样的信息应该被保留后,接下来就要考虑如何在保持特征值不变的情况下,将矩阵转换为一个更简单的形式
显然,因为相似变换不会改变矩阵的特征值,所以是否可以利用相似变换来达到目的是首要考虑的问题。这样的变换被称为 对角化 (Diagonalization)「対角化」
即,求解可逆矩阵 P,使得
P−1AP=D=⎝⎜⎜⎜⎜⎛μ10⋮00μ2⋮0⋯⋯⋱⋯00⋮μn⎠⎟⎟⎟⎟⎞
显然此时有等式 AP=PD 成立,通过对 P 进行列分解,可以得到
A(p1p2⋯pn)=(p1p2⋯pn)⎝⎜⎜⎜⎜⎛μ10⋮00μ2⋮0⋯⋯⋱⋯00⋮μn⎠⎟⎟⎟⎟⎞
等价于
Api=μipi,i=1,2,…,n
并且,由于等式组中 μi 与 pi 标号一致,这意味着,矩阵 P 的拼接顺序会决定对角矩阵 D 的结果
所以 D 中的对角成分一定是矩阵 A 的特征值按顺序排列的结果,即
(p1p2⋯pn)−1A(p1p2⋯pn)=⎝⎜⎜⎜⎜⎛λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎠⎟⎟⎟⎟⎞
命题
n 阶方阵 A 可对角化的充分必要条件为:矩阵 A 存在 n 个线性无关的特征向量
证明
(⇒)
假设 A 可对角化,则存在可逆矩阵 P,使得
P−1AP=⎝⎜⎜⎜⎜⎛λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎠⎟⎟⎟⎟⎞=:D
等价于等式
Api=λipi,i=1,2,…,n
由于 P 可逆,所以各个 pi=0,这意味着各个 pi 均为矩阵 A 的特征向量
根据 P 的正则性,可知 p1,p2,…,pn 线性无关
(⇐)
假设存在 n 个线性无关的特征向量 pi,满足
Api=λipi,i=1,2,…,n
其中各个 λi 为矩阵 A 的特征值
将其改写为矩阵形式
A(p1p2⋯pn)=(p1p2⋯pn)⎝⎜⎜⎜⎜⎛λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎠⎟⎟⎟⎟⎞
由于 p1,p2,…,pn 线性无关,所以矩阵 P=(p1p2⋯pn) 可逆
左乘 P−1,得到
P−1AP=⎝⎜⎜⎜⎜⎛λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎠⎟⎟⎟⎟⎞
□
- 可以得到一个判定的充分条件是:矩阵的特征值互不相等
命题
令 n 阶方阵 A 的特征值为 λ1,λ2,…,λk,且均互不相等
则对应于每个特征值的特征向量组 p1,p2,…,pk 线性无关
证明
设 pi 为特征值 λi 对应的特征向量
基于归纳法证明它们线性无关
当 k=1 时,显然 p1 非零,所以线性无关
假设当 k=m 时结论成立,考虑 k=m+1 的情况
设存在系数 c1,c2,…,cm+1,使得
c1p1+c2p2+⋯+cm+1pm+1=0
两边同时左乘 A,得到
c1λ1p1+c2λ2p2+⋯+cm+1λm+1pm+1=0
将第一式乘以 λm+1 并与第二式相减,得到
c1(λ1−λm+1)p1+c2(λ2−λm+1)p2+⋯+cm(λm−λm+1)pm=0
根据归纳假设可知,p1,p2,…,pm 线性无关,所以
ci(λi−λm+1)=0,i=1,2,…,m
由于 λi=λm+1,所以 ci=0,代入第一式可知 cm+1=0
由此,p1,p2,…,pm+1 线性无关
□
综上,对矩阵 A 进行对角化的步骤为:
- 求解矩阵的特征值
- 求解每个特征值对应的特征向量
- 判断矩阵是否可以对角化(存在 n 个相异特征值 / 存在 n 个线性无关的特征向量 / 特征空间维数之和为 n)
- 拼接特征向量构成矩阵 P,计算 P−1AP 即为对角化形式
示例
判断矩阵
A=⎝⎛−23−66−5123−37⎠⎞
是否可对角化,若可对角化,求出其对角化形式
解
计算特征多项式
FA(λ)=det(λE−A)=∣∣∣∣∣∣∣λ+2−36−6λ+5−12−33λ−7∣∣∣∣∣∣∣=(λ+2)(λ−1)2
解出特征值为 λ1=−2,λ2=1(重根)
- 对于 λ1=−2,解方程组
⎝⎛0−36−67−12−33−9⎠⎞⎝⎛x1x2x3⎠⎞=⎝⎛000⎠⎞
得到
x=t⎝⎛100⎠⎞,t∈R
- 对于 λ2=1,解方程组
⎝⎛3−36−66−12−33−8⎠⎞⎝⎛x1x2x3⎠⎞=⎝⎛000⎠⎞
得到
x=s⎝⎛210⎠⎞+r⎝⎛101⎠⎞,s,r∈R
所以总共得到 3 个线性无关的特征向量,这意味着矩阵 A 可对角化
p1=⎝⎛100⎠⎞,p2=⎝⎛210⎠⎞,p3=⎝⎛101⎠⎞
构成矩阵
P=⎝⎛100210101⎠⎞
所以
P−1AP=⎝⎛−200010001⎠⎞
□
# 特征空间
依据特征值的定义
Ax=λx
可以求解出对应于每一个特征值的特征向量 x。该线性方程组可以写为
(A−λI)x=0
称每个解空间为每个特征值对应的 特征子空间 (Eigenspace)「固有部分空間」,记作 Vλ,即
Vλ={x∈Kn∣(A−λI)x=0}
- 继承于解空间的性质,其维度可以由 dimVλ=n−rank(A−λI) 计算得到
- 由于 x 必须为非零向量,所以解出来的解空间必然至少为一维
特征空间对于原矩阵来说是一个非常重要的空间
如果将矩阵视为线性映射,那么特征空间就是一个非常特殊的区域,使得原映射在该区域内的所有向量都仅仅被伸缩,而不会被旋转或者发生其他变化
现在整理上述概念,可以得到:
- 通过特征空间等概念,可以将原本矩阵所蕴含的信息,转换分解为,在各个特征空间中蕴含的信息
- 研究原矩阵得以转为研究各个特征空间中的表现,这等价于:矩阵对于各个特征向量究竟产生了什么影响
命题
设 n 阶方阵 A 具有 r 个互不相等的特征值 λ1,λ2,…,λr
则 A 可对角化的充分必要条件为
i=1∑rdimVλi=n
证明
注意可对角化等价于存在 n 个线性无关的特征向量
设每个特征值 λi 对应的特征空间 Vλi 的维度为 di,则每个特征空间中均存在 di 个线性无关的特征向量
由于不同特征值对应的特征向量线性无关(参考上述命题),所以总共存在
i=1∑rdi
个线性无关的特征向量
所以矩阵 A 可对角化的充分必要条件为
i=1∑rdi=n
□
回忆子空间的直和,有在 V=W1+W2 时
V=W1⊕W2⟺dimV=dimW1+dimW2
所以,这也可以得到矩阵可对角化的另一个等价条件
命题
设 n 阶方阵 A 具有 r 个互不相等的特征值 λ1,λ2,…,λr
则 A 可对角化的充分必要条件为
V=Vλ1⊕Vλ2⊕⋯⊕Vλr
证明
(⇒)
根据上述命题,矩阵 A 可对角化等价于
i=1∑rdimVλi=n
由于各个特征空间中的特征向量线性无关,并且一共存在 n 个线性无关的特征向量,所以
V=Vλ1+Vλ2+⋯+Vλr
所以
V=Vλ1⊕Vλ2⊕⋯⊕Vλr
(⇐)
根据直和的定义可知
dimV=i=1∑rdimVλi=n
所以矩阵 A 可对角化
□
# Cayley-Hamilton 定理
利用特征方程,除了可以解出特征值,还可以方便地计算矩阵的多项式
定理 Cayley-Hamilton 定理
令 A 为 n 阶方阵,FA(λ) 为其特征多项式,则
FA(A)=O
证明
设矩阵
B=t(xE−A)
这是各个元素均为 x 的多项式的矩阵,且
detB=FA(x)
令 B为矩阵 B 的余子矩阵,则有
BB=FA(x)En
设 B(A) 为将矩阵 A 代入矩阵 B 中的结果,则
B(A)=⎝⎜⎜⎜⎜⎛A−a11E−a12E⋮−a1nE−a21EA−a22E⋮−a2nE⋯⋯⋱⋯−an1E−an2E⋮A−annE⎠⎟⎟⎟⎟⎞
用同样的方法定义 B(A),则矩阵积可以由分割表示为
B(A)B(A)=⎝⎜⎜⎜⎜⎛FA(A)O⋮OOFA(A)⋮O⋯⋯⋱⋯OO⋮FA(A)⎠⎟⎟⎟⎟⎞
将等式两边乘以 Rn 的标准正交归一基,得到
B(A)B(A)⎝⎜⎜⎜⎜⎛e1e2⋮en⎠⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎛FA(A)e1FA(A)e2⋮FA(A)en⎠⎟⎟⎟⎟⎞
另一边,单独对 B(A) 作用在 ei 上,得到
B(A)⎝⎜⎜⎜⎜⎛e1e2⋮en⎠⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎛=(A−a11E)e1−a21Ee2−⋯−an1Een−a12Ee1+(A−a22E)e2−⋯−an2Een⋮−a1nEe1−a2nEe2−⋯+(A−annE)en⎠⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎛00⋮0⎠⎟⎟⎟⎟⎞
所以
FA(A)ei=0,i=1,2,…,n
这等价于 FA(A)=O
□
以下是应用示例。本质上是对多项式的降次
示例
令矩阵
A=(203−1)
求
- A4
- A7−3A4
解
计算特征多项式
FA(λ)=det(λE−A)=∣∣∣∣∣λ−20−3λ+1∣∣∣∣∣=(λ−2)(λ+1)
由 Cayley-Hamilton 定理可知
FA(A)=(A−2E)(A+E)=A2−A−2E=O
所以
A2=A+2E
接下来,计算 A4:
A4=(A2)2=(A+2E)2=A2+4A+4E=(A+2E)+4A+4E=5A+6E=(280154)
计算 A7−3A4:
A7−3A4=A3A4−3A4=A3(5A+6E)−3(5A+6E)=5A4+6A3−15A−18E=5(5A+6E)+6A3−15A−18E=10A+12E+6A3=28A+24E=(9608736)
□
# 线性变换的对角化
由于一个矩阵所蕴含的信息等价于一个线性映射所表述的信息。所以对角化实际上也可以对线性映射进行执行。这样做的结果是可以得到更加漂亮的矩阵表示
示例
令 V=R[x]2
定义线性变换
f:V→V,g(x)↦g(1−x)
求该线性映射在对角化下的新矩阵表示
解
首先,取 V 的标准基底
E=(1,x,x2)
计算线性映射在该基底下的矩阵表示
f(1)f(x)f(x2)=1=1−x=(1−x)2=1−2x+x2
所以矩阵表示为
A=⎝⎛1001−101−21⎠⎞
计算特征多项式
FA(λ)=det(A−λI)=(1−λ)2(−1−λ)
解出特征值为 λ1=1(重根),λ2=−1
接下来,求解特征值对应的特征向量
- 对于 λ1=1,解方程组
⎝⎛0001−201−20⎠⎞⎝⎛x1x2x3⎠⎞=⎝⎛000⎠⎞
得到
x=s⎝⎛100⎠⎞+t⎝⎛0−11⎠⎞,s,t∈R
- 对于 λ2=−1,解方程组
⎝⎛2001001−22⎠⎞⎝⎛x1x2x3⎠⎞=⎝⎛000⎠⎞
得到
x=r⎝⎛2110⎠⎞,r∈R
所以总共得到 3 个线性无关的特征向量
p1=⎝⎛100⎠⎞,p2=⎝⎛0−11⎠⎞,p3=⎝⎛2110⎠⎞
构成矩阵
P=⎝⎛1000−112110⎠⎞
此时,矩阵 A 可对角化,且对角化后的矩阵为
P−1AP=⎝⎛10001000−1⎠⎞