# 随机变量

定义
(Ω,F,P)(\Omega, \mathcal F, P) 为概率空间
称实数值映射 X:ΩRX:\Omega \to \mathbb R(Ω,F,P)(\Omega, \mathcal F, P) 上的 随机变量 (Random Variable)「確率変数」,当且仅当对于任意实数 xx,事件

{ωΩX(ω)x}F\{\omega \in \Omega \mid X(\omega) \leq x\} \in \mathcal F

  • 每个 XX 即对应一个事件,并映射为一个概率

如果记概率

pj=P(X=xj)p_j = P(X = x_j)

那么组

(x1,p1),(x2,p2),(x_1, p_1), (x_2, p_2), \ldots

称为随机变量 XX概率分布 (Probability Distribution)「確率分布」

  • XX 的取值为至多可数集,则称 XX离散型随机变量 (Discrete Random Variable)「離散型確率変数」
  • 若存在 f:R[0,)f:\mathbb R \to [0,\infty) 使得

P(aXb)=abf(x)dx,(ab)P(a \leq X \leq b) = \int_a^b f(x)dx,\ (a \leq b)

则称 XX连续型随机变量 (Continuous Random Variable)「連続型確率変数」
- 称 ffXX概率密度函数 (Probability Density Function)「確率密度関数」
- 概率密度函数是连续性随机变量特有的概念,甚至有的书中,定义绝对连续分布的要求就是有概率密度函数

在随机变量的基础上,可以定义出表示概率分布情况的函数

定义
(Ω,F,P)(\Omega, \mathcal F, P) 上的随机变量 XX,称

FX(x)=P(Xx)F_X(x) = P(X \leq x)

XX累积分布函数 (Cumulative Distribution Function)

研究 PDF(概率密度函数)和 CDF(累积分布函数)是研究概率分布情况的核心

# 期望值与方差

期望值和方差是描述概率分布情况的重要参数。

期望值指示了如字面意思的,” 我们可以如何期待结果 “。例如用期望值来预测彩票收入
计算方式非常简单:每个值去乘以它的概率,最后加起来,这很符合直觉
离散型随机变量或连续型随机变量 XX期望值 (Expected Value)「期待値」 定义为

E[X]={xiX(Ω)xiP(X=xi),X is Discretexf(x)dx,X is ContinuousE[X] = \begin{cases} \displaystyle\sum_{x_i \in X(\Omega)} x_i P(X = x_i), & \text{X is Discrete} \\[16pt] \displaystyle\int_{-\infty}^{\infty} x f(x) dx, & \text{X is Continuous} \end{cases}

方差描述数据的离散程度,方差越大意味着数据越分散。例如一个班的学习成绩如果方差越小,说明大家的差距越小
所以方差的计算思路是:每个值去减去期望值来获取偏移量,最后加起来
但是注意一点:偏移量可能有正有负。不能因为有不同方向的偏差互相抵消就说总体数据没有偏差。所以需要平方来去掉负数带来的影响
离散型随机变量或连续型随机变量 XX方差 (Variance)「分散」 定义为

V[X]=E[(XE[X])2]={xiX(Ω)(xiE[X])2P(X=xi),X is Discrete(xE[X])2f(x)dx,X is ContinuousV[X] = E[(X - E[X])^2] = \begin{cases} \displaystyle\sum_{x_i \in X(\Omega)} (x_i - E[X])^2 P(X = x_i), & \text{X is Discrete} \\[16pt] \displaystyle\int_{-\infty}^{\infty} (x - E[X])^2 f(x) dx, & \text{X is Continuous} \end{cases}

在消除正负号所带来的影响后,也可以通过根号来还原平方带来的量纲变化
定义随机变量 XX标准差 (Standard Deviation)「標準偏差」

σ=V[X]\sigma = \sqrt{V[X]}

通常,习惯上记

  • 期望值为 E[X]=μE[X] = \mu
  • 方差为 V[X]=σ2V[X] = \sigma^2
  • 标准差为 σ\sigma

两种算子具有以下基本计算性质

  • 期望值是线性的
  • 方差具有二次齐次性

命题

  • E[aX+b]=aE[X]+bE[aX + b] = aE[X] + b
  • V[aX+b]=a2V[X]V[aX + b] = a^2 V[X]
证明

由定义,对于离散型随机变量

E[aX+b]=xiX(Ω)(axi+b)P(X=xi)=axiX(Ω)xiP(X=xi)+bxiX(Ω)P(X=xi)=aE[X]+bV[aX+b]=E[(aX+bE[aX+b])2]=E[(aX+baE[X]b)2]=E[a2(XE[X])2]=a2E[(XE[X])2]=a2V[X]\begin{aligned} E[aX + b] &= \sum_{x_i \in X(\Omega)} (a x_i + b) P(X = x_i) \\ &= a \sum_{x_i \in X(\Omega)} x_i P(X = x_i) + b \sum_{x_i \in X(\Omega)} P(X = x_i) \\ &= a E[X] + b \\ V[aX + b] &= E[(aX + b - E[aX + b])^2] \\ &= E[(aX + b - aE[X] - b)^2] \\ &= E[a^2 (X - E[X])^2] \\ &= a^2 E[(X - E[X])^2] \\ &= a^2 V[X] \end{aligned}

同样地,对于连续型随机变量

E[aX+b]=(ax+b)f(x)dx=axf(x)dx+bf(x)dx=aE[X]+bV[aX+b]=E[(aX+bE[aX+b])2]=(ax+baE[X]b)2f(x)dx=a2(xE[X])2f(x)dx=a2E[(XE[X])2]=a2V[X]\begin{aligned} E[aX + b] &= \int_{-\infty}^{\infty} (a x + b) f(x) dx \\ &= a \int_{-\infty}^{\infty} x f(x) dx + b \int_{-\infty}^{\infty} f(x) dx \\ &= a E[X] + b \\ V[aX + b] &= E[(aX + b - E[aX + b])^2] \\ &= \int_{-\infty}^{\infty} (a x + b - a E[X] - b)^2 f(x) dx \\ &= \int_{-\infty}^{\infty} a^2 (x - E[X])^2 f(x) dx \\ &= a^2 E[(X - E[X])^2] \\ &= a^2 V[X] \end{aligned}

\square

实际计算中,方差往往用如下等价计算式

命题

  • V[X]=E[X2](E[X])2V[X] = E[X^2] - (E[X])^2
证明

由定义

V[X]=E[(XE[X])2]=E[X22XE[X]+(E[X])2]=E[X2]2E[X]E[X]+(E[X])2=E[X2](E[X])2\begin{aligned} V[X] &= E[(X - E[X])^2] \\ &= E[X^2 - 2X E[X] + (E[X])^2] \\ &= E[X^2] - 2E[X]E[X] + (E[X])^2 \\ &= E[X^2] - (E[X])^2 \end{aligned}

\square

# 矩母函数

矩母函数像是概率分布的一个身份证
对于随机变量 XX,称

MX(t)=E[etX]M_X(t) = E[e^{tX}]

XX矩母函数 (Moment Generating Function)「積率母関数」
此时,MX(t)M_X(t) 唯一确定一个概率分布,我们可以利用它的微分来计算期望值和方差

命题
对于概率变量 XX 以及矩母函数 MX(t)M_X(t),有

E[Xn]=MX(n)(0)E[X^n] = M_X^{(n)}(0)

由此

E[X]=MX(0),V[X]=MX(0)(MX(0))2E[X] = M_X'(0),\quad V[X] = M_X''(0) - (M_X'(0))^2

证明

期望值算子的线性性质可知

dndtnMX(t)=dndtnE[etX]=E[dndtnetX]=E[XnetX]\frac{d^n}{dt^n} M_X(t) = \frac{d^n}{dt^n} E[e^{tX}] = E\left[\frac{d^n}{dt^n} e^{tX}\right] = E[X^n e^{tX}]

代入 t=0t=0 即得

E[Xn]=MX(n)(0)E[X^n] = M_X^{(n)}(0)

\square

# Chebyshev 不等式

方差表示的是数据的分散程度,所以方差比较小的概率分布中,数据会集中在期望值附近
Chebyshev 不等式针对这个 “集中” 给出了一个定量的描述

定理 Chebyshev 不等式
对于概率变量 XX,令期望值 E[X]=μE[X] = \mu,方差 V[X]=σ2V[X] = \sigma^2
则对于任意 k>0k > 0,有

P(Xμk)σ2k2P(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2}

证明

仅证明离散型随机变量的情况,连续性同理
ffXX 的概率密度函数

σ2=E[(Xμ)2]=xiX(Ω)(xiμ)2f(xi)xiμk(xiμ)2f(xi)xiμkk2f(xi)=k2P(Xμk)\begin{aligned} \sigma^2 &= E[(X - \mu)^2] = \sum_{x_i \in X(\Omega)} (x_i - \mu)^2 f(x_i) \\ &\geq \sum_{|x_i - \mu| \geq k} (x_i - \mu)^2 f(x_i) \\ &\geq \sum_{|x_i - \mu| \geq k} k^2 f(x_i) \\ &= k^2 P(|X - \mu| \geq k) \end{aligned}

由此得

P(Xμk)σ2k2P(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2}

\square

  • 这意味着,均值的 kk - 邻域外的数据所占比例不会超过 σ2k2\dfrac{\sigma^2}{k^2},所以方差越小,数据越集中在均值附近