# 二维下的概率分布

当存在两个不同的随机变量 XXYY 时,通过将其组成向量,可以在平面 R2\mathbb R^2 上描述其分布
便于理解,首先考虑 X,YX, Y 都是离散型随机变量,则各自拥有对应的概率取值

P(X=xi)=pi,P(Y=yj)=qjP(X = x_i) = p_i,\quad P(Y = y_j) = q_j

那么在二维平面下的概率就可以对应为

P((XY)=(xiyj))=rijP(\begin{pmatrix} X \\ Y \end{pmatrix} = \begin{pmatrix} x_i \\ y_j \end{pmatrix}) = r_{ij}

由概率 rr 所定的平面上的概率分布,称为随机变量 (X,Y)(X, Y)联合分布 (Joint Distribution)「同時分布」

通过对联合分布的一侧的随机变量方向进行累加,可以将二维联合分布还原为一维

命题
X,YX,Y 为离散型随机变量的情况下

j=1Nrij=pi,i=1Mrij=qj\sum_{j=1}^N r_{ij} = p_i,\quad \sum_{i=1}^M r_{ij} = q_j

证明

取任意 ii,则

P(X=xi)=P(j=1N{X=xi,Y=yj})=j=1NP(X=xi,Y=yj)=j=1Nrij\begin{aligned} P(X = x_i) &= P\left(\bigcup_{j=1}^N \{X = x_i, Y = y_j\}\right) \\ &= \sum_{j=1}^N P(X = x_i, Y = y_j) \\ &= \sum_{j=1}^N r_{ij} \end{aligned}

同理可证 i=1Mrij=qj\sum\limits_{i=1}^M r_{ij} = q_j
\square

此时得到的

P(X=xi)=j=1NrijP(X = x_i) = \sum_{j=1}^N r_{ij}

称为随机变量 XX边际分布 (Marginal Distribution)「周辺分布」
对于 YY 同样

X,YX,Y 为连续型随机变量时,联合分布对应的概率密度函数为

f(x,y)=2xyP(Xx,Yy)f(x,y) = \frac{\partial^2}{\partial x \partial y} P(X \leq x, Y \leq y)

并且 X,YX,Y 的边际分布概率密度函数分别为

fX(x)=+f(x,y)dyf_X(x) = \int_{-\infty}^{+\infty} f(x,y) dy

fY(y)=+f(x,y)dxf_Y(y) = \int_{-\infty}^{+\infty} f(x,y) dx

# 随机变量的独立性

定义
X,YX,Y 为两个随机变量
若对于任意满足 aba \leq bcdc \leq d 的实数区间,有

P(aXbcYd)=P(aXb)P(a \leq X \leq b \mid c \leq Y \leq d) = P(a \leq X \leq b)

则称随机变量 XXYY 相互 独立 (Independence)「独立」

随机变量的独立性指示出:一边的变化不会导致另一边的变化
由此,反过来也可以说,如果两个随机变量在独立的试验中都各自表示出各自的结果,那么它们就是独立的

X,YX,Y 独立的定义的条件等价于

P(aXb,cYd)=P(aXb)P(cYd)P(a \leq X \leq b, c \leq Y \leq d) = P(a \leq X \leq b) \cdot P(c \leq Y \leq d)

通过此乘积形式的等价条件,可以得到一般情况下判断随机变量是否独立的方法

命题
离散型随机变量 X,YX,Y 独立的充分必要条件为

rij=piqjr_{ij} = p_i \cdot q_j

连续型随机变量 X,YX,Y 独立的充分必要条件为

f(x,y)=fX(x)fY(y)f(x,y) = f_X(x) \cdot f_Y(y)

证明

离散型
(\Rightarrow)

rij=P(X=xi,Y=yj)=P(X=xi)P(Y=yj)=piqj\begin{aligned} r_{ij} &= P(X = x_i, Y = y_j) \\ &= P(X = x_i) \cdot P(Y = y_j) \\ &= p_i \cdot q_j \end{aligned}

(\Leftarrow)

P(aXb,cYd)=xi[a,b]yj[c,d]rij=xi[a,b]yj[c,d]piqj=(xi[a,b]pi)(yj[c,d]qj)=P(aXb)P(cYd)\begin{aligned} P(a \leq X \leq b, c \leq Y \leq d) &= \sum_{x_i \in [a,b]} \sum_{y_j \in [c,d]} r_{ij} \\ &= \sum_{x_i \in [a,b]} \sum_{y_j \in [c,d]} p_i \cdot q_j \\ &= \left(\sum_{x_i \in [a,b]} p_i\right) \cdot \left(\sum_{y_j \in [c,d]} q_j\right) \\ &= P(a \leq X \leq b) \cdot P(c \leq Y \leq d) \end{aligned}

连续型
(\Rightarrow)

f(x,y)=2xyP(Xx,Yy)=2xy(P(Xx)P(Yy))=xP(Xx)yP(Yy)=fX(x)fY(y)\begin{aligned} f(x,y) &= \frac{\partial^2}{\partial x \partial y} P(X \leq x, Y \leq y) \\ &= \frac{\partial^2}{\partial x \partial y} \left(P(X \leq x) \cdot P(Y \leq y)\right) \\ &= \frac{\partial}{\partial x} P(X \leq x) \cdot \frac{\partial}{\partial y} P(Y \leq y) \\ &= f_X(x) \cdot f_Y(y) \end{aligned}

(\Leftarrow)

P(aXb,cYd)=abcdf(x,y)dydx=abcdfX(x)fY(y)dydx=(abfX(x)dx)(cdfY(y)dy)=P(aXb)P(cYd)\begin{aligned} P(a \leq X \leq b, c \leq Y \leq d) &= \int_a^b \int_c^d f(x,y) \, dy \, dx \\ &= \int_a^b \int_c^d f_X(x) \cdot f_Y(y) \, dy \, dx \\ &= \left(\int_a^b f_X(x) \, dx\right) \cdot \left(\int_c^d f_Y(y) \, dy\right) \\ &= P(a \leq X \leq b) \cdot P(c \leq Y \leq d) \end{aligned}

\square

直观上显然地,独立的随机变量因为不会互相影响,所以联合分布的期望值也可以简单得到

命题
X,YX,Y 为两个独立的随机变量,则有

E[X,Y]=E[X]E[Y]E[X,Y] = E[X] \cdot E[Y]

证明

离散型

E[X,Y]=i=1Mj=1Nxiyjrij=i=1Mj=1Nxiyjpiqj=(i=1Mxipi)(j=1Nyjqj)=E[X]E[Y]\begin{aligned} E[X,Y] &= \sum_{i=1}^M \sum_{j=1}^N x_i y_j r_{ij} \\ &= \sum_{i=1}^M \sum_{j=1}^N x_i y_j p_i q_j \\ &= \left(\sum_{i=1}^M x_i p_i\right) \cdot \left(\sum_{j=1}^N y_j q_j\right) \\ &= E[X] \cdot E[Y] \end{aligned}

连续型

E[X,Y]=++xyf(x,y)dydx=++xyfX(x)fY(y)dydx=(+xfX(x)dx)(+yfY(y)dy)=E[X]E[Y]\begin{aligned} E[X,Y] &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy f(x,y) \, dy \, dx \\ &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy f_X(x) f_Y(y) \, dy \, dx \\ &= \left(\int_{-\infty}^{+\infty} x f_X(x) \, dx\right) \cdot \left(\int_{-\infty}^{+\infty} y f_Y(y) \, dy\right) \\ &= E[X] \cdot E[Y] \end{aligned}

\square

特别地,如果随机变量 X,YX,Y 独立且均服从同一分布,则称其为 独立同分布 (Independent and Identically Distributed, i.i.d.)「独立同分布」

# 协方差

随机变量可能会独立,自然也会不独立
在分析时,需要引入一个衡量随机变量关联性的量,用于指示多个变量之间有多关联

定义
X,YX,Y 为两个随机变量,则称

Cov(X,Y)=E[(XE[X])(YE[Y])]\mathrm{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])]

为随机变量 X,YX,Y协方差 (Covariance)「共分散」
并且称

ρ(X,Y)=Cov(X,Y)V[X]V[Y]\rho (X,Y) = \frac{\mathrm{Cov}(X,Y)}{\sqrt{V[X]} \sqrt{V[Y]}}

为随机变量 X,YX,Y相关系数 (Correlation Coefficient)「相関係数」

可以快速验证得到以下关系

Cov(X,Y)=E[XY]E[X]E[Y]\mathrm{Cov}(X,Y) = E[XY] - E[X]E[Y]

这样一来,独立性就可以由协方差指示,在协方差为 00 时,随机变量独立

命题

  1. 随机变量 X,YX,Y 独立     Cov(X,Y)=0\iff \mathrm{Cov}(X,Y) = 0
  2. ρ(X,Y)1|\rho(X,Y)| \leq 1
证明

(1)
(\Rightarrow)

Cov(X,Y)=E[XY]E[X]E[Y]=E[X]E[Y]E[X]E[Y]=0\begin{aligned} \mathrm{Cov}(X,Y) &= E[XY] - E[X]E[Y] \\ &= E[X]E[Y] - E[X]E[Y] \\ &= 0 \end{aligned}

(\Leftarrow)
XX 取值为 x1,x2,,xMx_1, x_2, \dots, x_MYY 取值为 y1,y2,,yNy_1, y_2, \dots, y_N,则

0=Cov(X,Y)=E[XY]E[X]E[Y]=i=1Mj=1Nxiyjrij(i=1Mxipi)(j=1Nyjqj)=i=1Mj=1Nxiyj(rijpiqj)\begin{aligned} 0 &= \mathrm{Cov}(X,Y) \\ &= E[XY] - E[X]E[Y] \\ &= \sum_{i=1}^M \sum_{j=1}^N x_i y_j r_{ij} - \left(\sum_{i=1}^M x_i p_i\right) \left(\sum_{j=1}^N y_j q_j\right) \\ &= \sum_{i=1}^M \sum_{j=1}^N x_i y_j (r_{ij} - p_i q_j) \end{aligned}

因为上式对任意 xi,yjx_i, y_j 都成立,所以 rijpiqj=0r_{ij} - p_i q_j = 0,即 rij=piqjr_{ij} = p_i q_j,从而 X,YX,Y 独立

(2)
由 Cauchy 不等式可知

(E[XY])2E[X2]E[Y2](E[XY]E[X]E[Y]+E[X]E[Y])2(E[X2](E[X])2+(E[X])2)(E[Y2](E[Y])2+(E[Y])2)(Cov(X,Y)+E[X]E[Y])2(V[X]+(E[X])2)(V[Y]+(E[Y])2)\begin{aligned} (E[XY])^2 &\leq E[X^2] \cdot E[Y^2] \\ (E[XY] - E[X]E[Y] + E[X]E[Y])^2 &\leq (E[X^2] - (E[X])^2 + (E[X])^2) \cdot (E[Y^2] - (E[Y])^2 + (E[Y])^2) \\ (\mathrm{Cov}(X,Y) + E[X]E[Y])^2 &\leq (V[X] + (E[X])^2) \cdot (V[Y] + (E[Y])^2) \end{aligned}

展开后整理即得

Cov(X,Y)2V[X]V[Y]\mathrm{Cov}(X,Y)^2 \leq V[X] \cdot V[Y]

\square

ρ(X,Y)=1|\rho(X,Y)| = 1 仅在有 Y=aX+bY = aX + b 这样的线性关系时成立,并且此时

XE[X]V[X]=±YE[Y]V[Y]\frac{X - E[X]}{\sqrt{V[X]}} = \pm \frac{Y - E[Y]}{\sqrt{V[Y]}}

# 矩母函数

对一维情形进行自然推广

定义
对于 nn 维随机变量 X=t(X1,X2,,Xn)\boldsymbol X = {}^t(X_1, X_2, \ldots, X_n),称

MX(t)=E[et,X],tRnM_{\boldsymbol X}(\boldsymbol t) = E[e^{\langle \boldsymbol t ,\boldsymbol X \rangle}],\quad \boldsymbol t \in \mathbb R^n

X\boldsymbol X矩母函数 (Moment Generating Function)「積率母関数」

同样

命题

E[Xi]=tiMX(0)E[X_i] = \frac{\partial}{\partial t_i} M_{\boldsymbol X}(\boldsymbol 0)

E[XiXj]=2titjMX(0)E[X_i X_j] = \frac{\partial^2}{\partial t_i \partial t_j} M_{\boldsymbol X}(\boldsymbol 0)

证明

tiMX(t)=tiE[et,X]=E[tiet,X]=E[Xiet,X]\begin{aligned} \frac{\partial}{\partial t_i} M_{\boldsymbol X}(\boldsymbol t) &= \frac{\partial}{\partial t_i} E[e^{\langle \boldsymbol t ,\boldsymbol X \rangle}] \\ &= E\left[\frac{\partial}{\partial t_i} e^{\langle \boldsymbol t ,\boldsymbol X \rangle}\right] \\ &= E[X_i e^{\langle \boldsymbol t ,\boldsymbol X \rangle}] \end{aligned}

t=0\boldsymbol t = \boldsymbol 0 代入即得

tiMX(0)=E[Xi]\frac{\partial}{\partial t_i} M_{\boldsymbol X}(\bold 0) = E[X_i]

同理可证

2titjMX(0)=E[XiXj]\frac{\partial^2}{\partial t_i \partial t_j} M_{\bold X}(\bold 0) = E[X_i X_j]

\square

# 高维正态分布

高维正态分布是正态分布在多维空间中的推广形式。
设随机向量

X=t(X1,X2,,Xn)\boldsymbol X = {}^t(X_1, X_2, \ldots, X_n)

nn 维随机变量。若其概率密度函数为

f(x)=1(2π)n/2Σ1/2exp ⁣(12(xμ)tΣ1(xμ))f(\boldsymbol x) = \frac{1}{(2\pi)^{n/2} |\boldsymbol \Sigma|^{1/2}} \exp\!\left( -\frac{1}{2} (\boldsymbol x - \boldsymbol \mu)^t \boldsymbol \Sigma^{-1} (\boldsymbol x - \boldsymbol \mu) \right)

其中:

  • μ=(μ1,μ2,,μn)t\boldsymbol \mu = (\mu_1, \mu_2, \ldots, \mu_n)^t 为均值向量;
  • Σ=(σij)n×n\boldsymbol \Sigma = (\sigma_{ij})_{n\times n} 为协方差矩阵,且对称、半正定。

则称 X\boldsymbol X 服从 多元正态分布 (Multivariate Normal Distribution, 多変量正規分布)

# 基本性质

  • 任意线性组合 Y=a1X1+a2X2++anXnY = a_1 X_1 + a_2 X_2 + \cdots + a_n X_n 服从一维正态分布。
  • X\boldsymbol X 服从多元正态分布,则各分量 XiX_i 服从一维正态分布。
  • X\boldsymbol X 服从多元正态分布,则各分量 XiX_i 相互独立的充分必要条件为协方差矩阵 Σ\boldsymbol \Sigma 为对角矩阵。

矩母函数为

MX(t)=exp ⁣(t,μ+12ttΣt)M_{\boldsymbol X}(\boldsymbol t) =\exp\!\left( \langle \boldsymbol t, \boldsymbol \mu \rangle +\frac{1}{2} \boldsymbol t^t \boldsymbol \Sigma \boldsymbol t \right)