# 二维下的概率分布
当存在两个不同的随机变量 X 和 Y 时,通过将其组成向量,可以在平面 R2 上描述其分布
便于理解,首先考虑 X,Y 都是离散型随机变量,则各自拥有对应的概率取值
P(X=xi)=pi,P(Y=yj)=qj
那么在二维平面下的概率就可以对应为
P((XY)=(xiyj))=rij
由概率 r 所定的平面上的概率分布,称为随机变量 (X,Y) 的 联合分布 (Joint Distribution)「同時分布」
通过对联合分布的一侧的随机变量方向进行累加,可以将二维联合分布还原为一维
命题
在 X,Y 为离散型随机变量的情况下
j=1∑Nrij=pi,i=1∑Mrij=qj
证明
取任意 i,则
P(X=xi)=P(j=1⋃N{X=xi,Y=yj})=j=1∑NP(X=xi,Y=yj)=j=1∑Nrij
同理可证 i=1∑Mrij=qj
□
此时得到的
P(X=xi)=j=1∑Nrij
称为随机变量 X 的 边际分布 (Marginal Distribution)「周辺分布」
对于 Y 同样
当 X,Y 为连续型随机变量时,联合分布对应的概率密度函数为
f(x,y)=∂x∂y∂2P(X≤x,Y≤y)
并且 X,Y 的边际分布概率密度函数分别为
fX(x)=∫−∞+∞f(x,y)dy
fY(y)=∫−∞+∞f(x,y)dx
# 随机变量的独立性
定义
设 X,Y 为两个随机变量
若对于任意满足 a≤b,c≤d 的实数区间,有
P(a≤X≤b∣c≤Y≤d)=P(a≤X≤b)
则称随机变量 X 和 Y 相互 独立 (Independence)「独立」
随机变量的独立性指示出:一边的变化不会导致另一边的变化
由此,反过来也可以说,如果两个随机变量在独立的试验中都各自表示出各自的结果,那么它们就是独立的
X,Y 独立的定义的条件等价于
P(a≤X≤b,c≤Y≤d)=P(a≤X≤b)⋅P(c≤Y≤d)
通过此乘积形式的等价条件,可以得到一般情况下判断随机变量是否独立的方法
命题
离散型随机变量 X,Y 独立的充分必要条件为
rij=pi⋅qj
连续型随机变量 X,Y 独立的充分必要条件为
f(x,y)=fX(x)⋅fY(y)
证明
离散型
(⇒)
rij=P(X=xi,Y=yj)=P(X=xi)⋅P(Y=yj)=pi⋅qj
(⇐)
P(a≤X≤b,c≤Y≤d)=xi∈[a,b]∑yj∈[c,d]∑rij=xi∈[a,b]∑yj∈[c,d]∑pi⋅qj=⎝⎛xi∈[a,b]∑pi⎠⎞⋅⎝⎛yj∈[c,d]∑qj⎠⎞=P(a≤X≤b)⋅P(c≤Y≤d)
连续型
(⇒)
f(x,y)=∂x∂y∂2P(X≤x,Y≤y)=∂x∂y∂2(P(X≤x)⋅P(Y≤y))=∂x∂P(X≤x)⋅∂y∂P(Y≤y)=fX(x)⋅fY(y)
(⇐)
P(a≤X≤b,c≤Y≤d)=∫ab∫cdf(x,y)dydx=∫ab∫cdfX(x)⋅fY(y)dydx=(∫abfX(x)dx)⋅(∫cdfY(y)dy)=P(a≤X≤b)⋅P(c≤Y≤d)
□
直观上显然地,独立的随机变量因为不会互相影响,所以联合分布的期望值也可以简单得到
命题
设 X,Y 为两个独立的随机变量,则有
E[X,Y]=E[X]⋅E[Y]
证明
离散型
E[X,Y]=i=1∑Mj=1∑Nxiyjrij=i=1∑Mj=1∑Nxiyjpiqj=(i=1∑Mxipi)⋅(j=1∑Nyjqj)=E[X]⋅E[Y]
连续型
E[X,Y]=∫−∞+∞∫−∞+∞xyf(x,y)dydx=∫−∞+∞∫−∞+∞xyfX(x)fY(y)dydx=(∫−∞+∞xfX(x)dx)⋅(∫−∞+∞yfY(y)dy)=E[X]⋅E[Y]
□
特别地,如果随机变量 X,Y 独立且均服从同一分布,则称其为 独立同分布 (Independent and Identically Distributed, i.i.d.)「独立同分布」
# 协方差
随机变量可能会独立,自然也会不独立
在分析时,需要引入一个衡量随机变量关联性的量,用于指示多个变量之间有多关联
定义
设 X,Y 为两个随机变量,则称
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
为随机变量 X,Y 的 协方差 (Covariance)「共分散」
并且称
ρ(X,Y)=V[X]V[Y]Cov(X,Y)
为随机变量 X,Y 的 相关系数 (Correlation Coefficient)「相関係数」
可以快速验证得到以下关系
Cov(X,Y)=E[XY]−E[X]E[Y]
这样一来,独立性就可以由协方差指示,在协方差为 0 时,随机变量独立
命题
- 随机变量 X,Y 独立 ⟺Cov(X,Y)=0
- ∣ρ(X,Y)∣≤1
证明
(1)
(⇒)
Cov(X,Y)=E[XY]−E[X]E[Y]=E[X]E[Y]−E[X]E[Y]=0
(⇐)
设 X 取值为 x1,x2,…,xM,Y 取值为 y1,y2,…,yN,则
0=Cov(X,Y)=E[XY]−E[X]E[Y]=i=1∑Mj=1∑Nxiyjrij−(i=1∑Mxipi)(j=1∑Nyjqj)=i=1∑Mj=1∑Nxiyj(rij−piqj)
因为上式对任意 xi,yj 都成立,所以 rij−piqj=0,即 rij=piqj,从而 X,Y 独立
(2)
由 Cauchy 不等式可知
(E[XY])2(E[XY]−E[X]E[Y]+E[X]E[Y])2(Cov(X,Y)+E[X]E[Y])2≤E[X2]⋅E[Y2]≤(E[X2]−(E[X])2+(E[X])2)⋅(E[Y2]−(E[Y])2+(E[Y])2)≤(V[X]+(E[X])2)⋅(V[Y]+(E[Y])2)
展开后整理即得
Cov(X,Y)2≤V[X]⋅V[Y]
□
∣ρ(X,Y)∣=1 仅在有 Y=aX+b 这样的线性关系时成立,并且此时
V[X]X−E[X]=±V[Y]Y−E[Y]
# 矩母函数
对一维情形进行自然推广
定义
对于 n 维随机变量 X=t(X1,X2,…,Xn),称
MX(t)=E[e⟨t,X⟩],t∈Rn
为 X 的 矩母函数 (Moment Generating Function)「積率母関数」
同样
命题
E[Xi]=∂ti∂MX(0)
E[XiXj]=∂ti∂tj∂2MX(0)
证明
∂ti∂MX(t)=∂ti∂E[e⟨t,X⟩]=E[∂ti∂e⟨t,X⟩]=E[Xie⟨t,X⟩]
将 t=0 代入即得
∂ti∂MX(0)=E[Xi]
同理可证
∂ti∂tj∂2MX(0)=E[XiXj]
□
# 高维正态分布
高维正态分布是正态分布在多维空间中的推广形式。
设随机向量
X=t(X1,X2,…,Xn)
为 n 维随机变量。若其概率密度函数为
f(x)=(2π)n/2∣Σ∣1/21exp(−21(x−μ)tΣ−1(x−μ))
其中:
- μ=(μ1,μ2,…,μn)t 为均值向量;
- Σ=(σij)n×n 为协方差矩阵,且对称、半正定。
则称 X 服从 多元正态分布 (Multivariate Normal Distribution, 多変量正規分布),
# 基本性质
- 任意线性组合 Y=a1X1+a2X2+⋯+anXn 服从一维正态分布。
- 若 X 服从多元正态分布,则各分量 Xi 服从一维正态分布。
- 若 X 服从多元正态分布,则各分量 Xi 相互独立的充分必要条件为协方差矩阵 Σ 为对角矩阵。
矩母函数为
MX(t)=exp(⟨t,μ⟩+21ttΣt)