不难看出,对线性变换的对角化本质上是在寻找一组更加优美的基。
那么,自然产生的疑问是:什么样的情况下对角化可以得到正交归一基?
该问题可以拆解为

  • 什么情况下得到的特征向量组是正交的
  • 什么情况下得到的特征向量组是正交归一的

本节将分别从正交矩阵和酉矩阵出发,讨论这两个问题

# 正交矩阵诱导出的对角化

对角化所使用的矩阵 PP 一般来说只是正则矩阵。
分析什么时候可以由满足 tP=P1{}^t P = P^{-1} 的正交矩阵来进行对角化
此时,设

P1AP=DP^{-1} A P = D

那么 A=PDP1A = P D P^{-1},且

tA=t(PDP1)=PDtP=PDP1=A\begin{aligned} {}^t A &= {}^t (P D P^{-1}) \\ &= P D {}^t P \\ &= P D P^{-1} \\ &= A \end{aligned}

不难得出:可以由正交矩阵对角化 \implies 矩阵 AA 为对称矩阵
实际上反方向也成立

命题
nn实数方阵 AA 可以被正交矩阵 PP 对角化的充分必要条件为:矩阵 AA对称矩阵

证明

只需要证明反方向即可
假设矩阵 AA 为对称矩阵,首先证明 AA 的特征值均为实数

假设 λ\lambda 为矩阵 AA 的特征值,p=(p1pn)\boldsymbol p = \begin{pmatrix} p_1 \\ \vdots \\ p_n \end{pmatrix} 为对应的特征向量,那么有

Ap=λpA \boldsymbol p = \lambda \boldsymbol p

对两边取共轭转置,实对称矩阵给出 tA=A{}^t \overline A = A,所以

tptA=λtp{}^t \overline{\boldsymbol p} {}^t A = \overline \lambda {}^t \overline{\boldsymbol p}

从右边乘以 p\boldsymbol p,得到

tpAp=λtpp{}^t \overline{\boldsymbol p} A \boldsymbol p = \overline \lambda {}^t \overline{\boldsymbol p} \boldsymbol p

注意到 tpAp=tpλp=λtpp{}^t \overline{\boldsymbol p} A \boldsymbol p = {}^t \overline{\boldsymbol p} \lambda \boldsymbol p = \lambda {}^t \overline{\boldsymbol p} \boldsymbol p,所以

λtpp=λtpp\lambda {}^t \overline{\boldsymbol p} \boldsymbol p = \overline \lambda {}^t \overline{\boldsymbol p} \boldsymbol p

由于 p0\boldsymbol p \neq \boldsymbol 0,所以 tpp>0{}^t \overline{\boldsymbol p} \boldsymbol p \gt 0,所以 λ=λ\lambda = \overline \lambda,即 λ\lambda 为实数

由于特征值为实数,作为方程的解,特征向量也可以取为实数向量

接下来通过归纳法证明 AA 可以被正交矩阵对角化
n=1n = 1 时,显然成立
假设当 n=kn = k 时结论成立,考虑 n=k+1n = k + 1 的情况
λ1\lambda_1 为矩阵 AA 的一个实特征值,p1\boldsymbol p_1 为对应的实特征向量
通过 Gram-Schmidt 正交化方法,可以得到 kk 个与 p1\boldsymbol p_1 正交的实向量 q2,q3,,qk+1\boldsymbol q_2, \boldsymbol q_3, \ldots, \boldsymbol q_{k+1},使得

(p1,q2,q3,,qk+1)(\boldsymbol p_1, \boldsymbol q_2, \boldsymbol q_3, \ldots, \boldsymbol q_{k+1})

构成 Rk+1\mathbb R^{k+1} 的一组基底
W=span(q2,q3,,qk+1)W = \text{span}(\boldsymbol q_2, \boldsymbol q_3, \ldots, \boldsymbol q_{k+1}),则 WWkk 维子空间,并且对于任意 wW\boldsymbol w \in W,都有

AwWA \boldsymbol w \in W

WWAA 下不变
所以,AAWW 上诱导出线性变换

f:WW,wAwf: W \to W, \quad \boldsymbol w \mapsto A \boldsymbol w

根据归纳假设,ff 可以被 kk 阶正交矩阵对角化
设该正交矩阵为 QQ,则

Q1fQ=D=(μ2000μ3000μk+1)Q^{-1} f Q = D = \begin{pmatrix} \mu_2 & 0 & \cdots & 0 \\ 0 & \mu_3 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \mu_{k+1} \end{pmatrix}

构造 (k+1)(k+1) 阶正交矩阵

P=(p1p1Q)P = \begin{pmatrix} \frac{\boldsymbol p_1}{\|\boldsymbol p_1\|} & & & \\ & & & \\ & Q & \\ & & & \end{pmatrix}

P1AP=(λ1000μ2000μk+1)P^{-1} A P = \begin{pmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \mu_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \mu_{k+1} \end{pmatrix}

\square

为了通过特征向量构造出正交矩阵,就必须要构造出正交归一基。为此需要准备以下结论

命题
nn 阶对称矩阵的不同特征值对应的特征向量组之间正交

证明

λ1\lambda_1λ2\lambda_2 为矩阵 AA 的不同特征值,p1\boldsymbol p_1p2\boldsymbol p_2 分别为对应的特征向量,那么有

Ap1=λ1p1A \boldsymbol p_1 = \lambda_1 \boldsymbol p_1

将两边同时与 p2\boldsymbol p_2 内积,得到

tp2Ap1=λ1tp2p1{}^t \boldsymbol p_2 A \boldsymbol p_1 = \lambda_1 {}^t \boldsymbol p_2 \boldsymbol p_1

由于矩阵 AA 为对称矩阵,所以 tp2A=t(Ap2){}^t \boldsymbol p_2 A = {}^t (A \boldsymbol p_2),所以

t(Ap2)p1=λ1tp2p1{}^t (A \boldsymbol p_2) \boldsymbol p_1 = \lambda_1 {}^t \boldsymbol p_2 \boldsymbol p_1

Ap2=λ2p2A \boldsymbol p_2 = \lambda_2 \boldsymbol p_2 代入上式,得到

λ2tp2p1=λ1tp2p1\lambda_2 {}^t \boldsymbol p_2 \boldsymbol p_1 = \lambda_1 {}^t \boldsymbol p_2 \boldsymbol p_1

由于 λ1λ2\lambda_1 \neq \lambda_2,所以 tp2p1=0{}^t \boldsymbol p_2 \boldsymbol p_1 = 0,即 p1\boldsymbol p_1p2\boldsymbol p_2 正交
\square

该结论给出的实际上是:不同特征空间之间,特征向量正交。
所以为了得到一组正交归一基,还需要对每个特征空间内的特征向量进行正交归一化处理。
所以求解由正交矩阵诱导的对角化的流程为

  • 求解特征值
  • 求解每个特征值对应的特征空间
  • 对每个特征空间内的特征向量组进行正交归一化处理,得到正交归一基
  • 将所有特征空间内的正交归一基拼接,得到正交矩阵 PP
  • 计算 P1APP^{-1} A P,得到对角化结果

示例
令矩阵

A=(121222121)A = \begin{pmatrix} 1 & 2 & 1 \\ 2 & -2 & -2 \\ 1 & -2 & 1 \end{pmatrix}

求该矩阵由正交矩阵诱导的对角化形式

计算特征多项式

FA(λ)=det(λEA)=λ1212λ+2212λ1=(λ+4)(λ2)2\begin{aligned} F_A(\lambda) &= \det(\lambda E - A) \\ &= \begin{vmatrix} \lambda - 1 & -2 & -1 \\ -2 & \lambda + 2 & 2 \\ -1 & 2 & \lambda - 1 \end{vmatrix} \\ &= (\lambda + 4)(\lambda - 2)^2 \end{aligned}

解出特征值为 λ1=4\lambda_1 = -4λ2=2\lambda_2 = 2(重根)

  • 对于 λ1=4\lambda_1 = -4,解方程组

(521262125)(x1x2x3)=(000)\begin{pmatrix} 5 & -2 & -1 \\ -2 & 6 & 2 \\ -1 & 2 & 5 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}

得到

x=t(121),tR\boldsymbol x = t \begin{pmatrix} -1 \\ 2 \\ 1 \end{pmatrix}, \quad t \in \mathbb R

  • 对于 λ2=2\lambda_2 = 2,解方程组

(121242121)(x1x2x3)=(000)\begin{pmatrix} -1 & -2 & -1 \\ -2 & 4 & 2 \\ -1 & 2 & -1 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}

得到

x=s(210)+r(101),s,rR\boldsymbol x = s \begin{pmatrix} 2 \\ 1 \\ 0 \end{pmatrix} + r \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}, \quad s, r \in \mathbb R

V4V_{-4} 中取一个特征向量

p1=(121)\boldsymbol p_1 = \begin{pmatrix} -1 \\ 2 \\ 1 \end{pmatrix}

归一得到

u1=16(121)\boldsymbol u_1 = \frac{1}{\sqrt{6}} \begin{pmatrix} -1 \\ 2 \\ 1 \end{pmatrix}

V2V_2 中取两个特征向量

p2=(210),p3=(101)\boldsymbol p_2 = \begin{pmatrix} 2 \\ 1 \\ 0 \end{pmatrix}, \quad \boldsymbol p_3 = \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}

通过 Gram-Schmidt 正交化方法,得到

u2=15(210)u3=130(125)\begin{aligned} \boldsymbol u_2 &= \frac{1}{\sqrt{5}} \begin{pmatrix} 2 \\ 1 \\ 0 \end{pmatrix} \\ \boldsymbol u_3 &= \frac{1}{\sqrt{30}} \begin{pmatrix} 1 \\ -2 \\ 5 \end{pmatrix} \end{aligned}

构成正交矩阵

P=(u1u2u3)=(16251302615230160530)P = \begin{pmatrix} \boldsymbol u_1 & \boldsymbol u_2 & \boldsymbol u_3 \end{pmatrix} = \begin{pmatrix} -\frac{1}{\sqrt{6}} & \frac{2}{\sqrt{5}} & \frac{1}{\sqrt{30}} \\ \frac{2}{\sqrt{6}} & \frac{1}{\sqrt{5}} & -\frac{2}{\sqrt{30}} \\ \frac{1}{\sqrt{6}} & 0 & \frac{5}{\sqrt{30}} \end{pmatrix}

那么

P1AP=(400020002)P^{-1} A P = \begin{pmatrix} -4 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 2 \end{pmatrix}

\square

# 酉矩阵诱导出的对角化

类似地,也可以讨论酉矩阵诱导的对角化
PP 为酉矩阵,即满足 P=P1{}^* P = P^{-1} 的矩阵

P1AP=DP^{-1} A P = D

那么 A=PDP1A = P D P^{-1},注意 DD=DDD \overline D = D \overline D,所以

AA=(PDP)(PDP)=PDDP=PDDP=(PDP)(PDP)=AA\begin{aligned} A A^* &= (P D P^*)( P \overline D P^*) \\ &= P D \overline D P^* \\ &= P \overline D D P^* \\ &= (P \overline D P^*)(P D P^*) \\ &= A^* A \end{aligned}

不难得出:可以由酉矩阵对角化 \implies 矩阵 AA正规矩阵
实际上反方向也成立

命题
nn复数方阵 AA 可以被酉矩阵 PP 对角化的充分必要条件为:矩阵 AA正规矩阵

证明

只需要证明反方向即可
通过归纳法证明
n=1n = 1 时,显然成立
假设当 n=kn = k 时结论成立,考虑 n=k+1n = k + 1 的情况

α\alpha 为矩阵 AA 的特征值,对于任意 bVα\boldsymbol b \in V_\alpha,都有

A(Ab)=A(Ab)=αAbA (A^* \boldsymbol b) = A^* (A \boldsymbol b) = \alpha A^* \boldsymbol b

所以 AbVαA^* \boldsymbol b \in V_\alpha,即特征空间 VαV_\alphaAA^* 下不变

又对于 aVα\boldsymbol a \in V_\alpha,有

Aab=aAb=0A \boldsymbol a \cdot \boldsymbol b = \boldsymbol a \cdot A^* \boldsymbol b = 0

所以 AaVαA \boldsymbol a \in V_\alpha^\perp,即 VαV_\alpha^\perpAA 下不变

  • VαV_\alpha 的正交归一基 \
  • VαV_\alpha^\perp 的正交归一基 {um+1,um+2,,un}\{\boldsymbol u_{m+1}, \boldsymbol u_{m+2}, \ldots, \boldsymbol u_n\}

那么

(Au1Au2Aun)=(u1u2un)(αEmOOB)\begin{pmatrix} A \boldsymbol u_1 & A \boldsymbol u_2 & \cdots & A \boldsymbol u_n \end{pmatrix} = \begin{pmatrix} \boldsymbol u_1 & \boldsymbol u_2 & \cdots & \boldsymbol u_n \end{pmatrix} \begin{pmatrix} \alpha E_m & O \\ O & B \end{pmatrix}

U:=(u1u2un)U := \begin{pmatrix} \boldsymbol u_1 & \boldsymbol u_2 & \cdots & \boldsymbol u_n \end{pmatrix}

UU 为酉矩阵,且

UAU=(αEmOOB)U^* A U = \begin{pmatrix} \alpha E_m & O \\ O & B \end{pmatrix}

此时

(ααEmOOBB)=(αEmOOB)(αEmOOB)=UAAU=UAAU=(ααEmOOBB)\begin{pmatrix} \alpha \overline \alpha E_m & O \\ O & B B^* \end{pmatrix} = \begin{pmatrix} \alpha E_m & O \\ O & B \end{pmatrix} \begin{pmatrix} \overline \alpha E_m & O \\ O & B^* \end{pmatrix} = U^* A A^* U = U^* A^* A U = \begin{pmatrix} \overline \alpha \alpha E_m & O \\ O & B^* B \end{pmatrix}

所以 BB=BBB^* B = B B^*,即矩阵 BB 为正规矩阵(nmn - m 阶)
根据归纳假设,矩阵 BB 可以被酉矩阵对角化
设该酉矩阵为 QQ,则

Q1BQ=D=(μm+1000μm+2000μn)Q^{-1} B Q = D = \begin{pmatrix} \mu_{m+1} & 0 & \cdots & 0 \\ 0 & \mu_{m+2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \mu_n \end{pmatrix}

构造 nn 阶酉矩阵

P=(EmOOQ)UP = \begin{pmatrix} E_m & O \\ O & Q \end{pmatrix} U

P1AP=(αEmOOD)P^{-1} A P = \begin{pmatrix} \alpha E_m & O \\ O & D \end{pmatrix}

\square

对实对称的情形进行推广,可以得到

命题
nn复数正规矩阵的不同特征值对应的特征向量组之间正交

证明

λ1\lambda_1λ2\lambda_2 为矩阵 AA 的不同特征值,p1\boldsymbol p_1p2\boldsymbol p_2 分别为对应的特征向量,那么有

Ap1=λ1p1A \boldsymbol p_1 = \lambda_1 \boldsymbol p_1

将两边同时与 p2\boldsymbol p_2 内积,得到

p2Ap1=λ1p2p1{}^* \boldsymbol p_2 A \boldsymbol p_1 = \lambda_1 {}^* \boldsymbol p_2 \boldsymbol p_1

由于矩阵 AA 为正规矩阵,所以 p2A=(Ap2){}^* \boldsymbol p_2 A = {}^* (A^* \boldsymbol p_2),所以

(Ap2)p1=λ1p2p1{}^* (A^* \boldsymbol p_2) \boldsymbol p_1 = \lambda_1 {}^* \boldsymbol p_2 \boldsymbol p_1

Ap2=λ2p2A^* \boldsymbol p_2 = \overline \lambda_2 \boldsymbol p_2 代入上式,得到

λ2p2p1=λ1p2p1\overline \lambda_2 {}^* \boldsymbol p_2 \boldsymbol p_1 = \lambda_1 {}^* \boldsymbol p_2 \boldsymbol p_1

由于 λ1λ2\lambda_1 \neq \lambda_2,所以 p2p1=0{}^* \boldsymbol p_2 \boldsymbol p_1 = 0,即 p1\boldsymbol p_1p2\boldsymbol p_2 正交
\square


回顾对角化诱导出的直和分解,对于正规矩阵来说,这可以推广为谱分解

定理 谱分解定理
AAnn 阶正规矩阵
α1,α2,,αr\alpha_1, \alpha_2, \ldots, \alpha_rAA 的互不相等的特征值
此时,唯一存在矩阵 P1,P2,,PrP_1, P_2, \ldots, P_r,满足

{Pi2=Pi=PiPiPj=O,iji=1rPi=E\begin{cases} P_i^2 = P_i = P_i^* \\ P_i P_j = O, \quad i \neq j \\ \sum\limits_{i=1}^r P_i = E \\ \end{cases}

使得矩阵 AA 可以被分解为

A=i=1rαiPiA = \sum_{i=1}^r \alpha_i P_i

证明

Pi2=PiP_i^2 = P_i
由于 AA 是正规矩阵,所以可以被酉矩阵对角化,使得

Cn=Vα1Vα2Vαr\mathbb C^n = V_{\alpha_1} \oplus V_{\alpha_2} \oplus \cdots \oplus V_{\alpha_r}

根据直和的定义,对于任意 xCn\boldsymbol x \in \mathbb C^n,唯一存在分解

x=x1+x2++xr,xiVαi\boldsymbol x = \boldsymbol x_1 + \boldsymbol x_2 + \cdots + \boldsymbol x_r, \quad \boldsymbol x_i \in V_{\alpha_i}

定义线性变换

fi:CnCn,xxif_i: \mathbb C^n \to \mathbb C^n, \quad \boldsymbol x \mapsto \boldsymbol x_i

PiP_i 为线性变换 fif_i 在标准正交归一基下的矩阵表示,则

Pi2x=Pi(Pix)=Pixi=xiP_i^2 \boldsymbol x = P_i (P_i \boldsymbol x) = P_i \boldsymbol x_i = \boldsymbol x_i

所以 Pi2=PiP_i^2 = P_i

Pi=PiP_i^* = P_i
对于向量 yCn\boldsymbol y \in \mathbb C^n,记

y=y1+y2++yr,yjVαj\boldsymbol y = \boldsymbol y_1 + \boldsymbol y_2 + \cdots + \boldsymbol y_r, \quad \boldsymbol y_j \in V_{\alpha_j}

不同特征值对应的特征空间正交,所以

Pixy=xiy=xiyi=xyiP_i \boldsymbol x \cdot \boldsymbol y = \boldsymbol x_i \cdot \boldsymbol y = \boldsymbol x_i \cdot \boldsymbol y_i = \boldsymbol x \cdot \boldsymbol y_i

伴随矩阵的定义给出 Pixy=xPiyP_i \boldsymbol x \cdot \boldsymbol y = \boldsymbol x \cdot P_i^* \boldsymbol y,所以

xPiy=xyi\boldsymbol x \cdot P_i^* \boldsymbol y = \boldsymbol x \cdot \boldsymbol y_i

由于 x\boldsymbol x 为任意向量,所以 Piy=yiP_i^* \boldsymbol y = \boldsymbol y_i,即 Pi=PiP_i^* = P_i

PiPj=OP_i P_j = O
对于 iji \neq j,有

PiPjxy=PjxPiy=xjyi=0P_i P_j \boldsymbol x \cdot \boldsymbol y = P_j \boldsymbol x \cdot P_i^* \boldsymbol y = \boldsymbol x_j \cdot \boldsymbol y_i = 0

所以 PiPj=OP_i P_j = O

=E\sum = E
因为

x=P1x+P2x++Prx\boldsymbol x = P_1 \boldsymbol x + P_2 \boldsymbol x + \cdots + P_r \boldsymbol x

所以

i=1rPi=E\sum_{i=1}^r P_i = E

分解性
由于 PixVαiP_i \boldsymbol x \in V_{\alpha_i},所以

(α1P1+α2P2++αrPr)x=α1P1x+α2P2x++αrPrx=A(P1x)+A(P2x)++A(Prx)=A(P1x+P2x++Prx)=Ax\begin{aligned} (\alpha_1 P_1 + \alpha_2 P_2 + \cdots + \alpha_r P_r) \boldsymbol x &= \alpha_1 P_1 \boldsymbol x + \alpha_2 P_2 \boldsymbol x + \cdots + \alpha_r P_r \boldsymbol x \\ &= A (P_1 \boldsymbol x) + A (P_2 \boldsymbol x) + \cdots + A (P_r \boldsymbol x) \\ &= A (P_1 \boldsymbol x + P_2 \boldsymbol x + \cdots + P_r \boldsymbol x) \\ &= A \boldsymbol x \end{aligned}

所以

A=i=1rαiPiA = \sum_{i=1}^r \alpha_i P_i

唯一性
假设存在另一组分解

A=i=1rαiQiA = \sum_{i=1}^r \alpha_i Q_i

Wi:=ImQiW_i := \mathrm{Im} Q_i,则对于任意 w=QixWi\boldsymbol w = Q_i \boldsymbol x \in W_i,都有

Aw=A(Qix)=αiQix=αiwA \boldsymbol w = A (Q_i \boldsymbol x) = \alpha_i Q_i \boldsymbol x = \alpha_i \boldsymbol w

所以 WiVαiW_i \subseteq V_{\alpha_i}
同理可得 VαiWiV_{\alpha_i} \subseteq W_i,所以 Wi=VαiW_i = V_{\alpha_i}
所以 QiQ_iPiP_i 在作用于任意向量时结果相同,即 Qi=PiQ_i = P_i
\square