# 随机变量

定义
若实数值映射 X:ΩRX:\Omega \to \mathbb R 对任意 xRx \in \mathbb R 满足

{ωΩX(ω)x}F\{\omega \in \Omega \mid X(\omega) \leq x\} \in \mathcal F

则称 XX(Ω,F,P)(\Omega, \mathcal F, P) 上的 随机变量 (Random Variable)「確率変数」

每个 XX 即对应一个事件,并映射为一个概率
如果记概率

pj=P(X=xj)p_j = P(X = x_j)

那么组

(x1,p1),(x2,p2),(x_1, p_1), (x_2, p_2), \ldots

称为随机变量 XX概率分布 (Probability Distribution)「確率分布」

  • XX 的取值为至多可数集,则称 XX离散型随机变量 (Discrete Random Variable)「離散型確率変数」
  • 若存在 f:R[0,)f:\mathbb R \to [0,\infty) 使得 P(aXb)=abf(x)dx,(ab)P(a \leq X \leq b) = \int_a^b f(x)dx,\ (a \leq b),则称 XX连续型随机变量 (Continuous Random Variable)「連続型確率変数」

连续型随机变量中,称 ffXX概率密度函数 (Probability Density Function)「確率密度関数」

pdf 是连续性随机变量特有的概念,甚至有的书中定义绝对连续分布的要求就是有概率密度函数

在随机变量的基础上,我们可以定义出表示概率分布情况的函数

定义
对于 (Ω,F,P)(\Omega, \mathcal F, P) 上的随机变量 XX

  • FX(x)=P(Xx)F_X(x) = P(X \leq x)XX累积分布函数 (Cumulative Distribution Function)

研究 PDF(概率密度函数)和 CDF(累积分布函数)是研究概率分布情况的核心

# 期望值与方差

期望值和方差是描述概率分布情况的重要参数。
期望值指示了如字面意思的,” 我们可以如何期待结果 “。例如用期望值来预测彩票收入

期望值的计算方式非常简单:每个值去乘以它的概率,最后加起来
对于离散型随机变量 XX期望值 (Expected Value)「期待値」

E[X]=xiX(Ω)xiP(X=xi)E[X] = \sum_{x_i \in X(\Omega)} x_i P(X = x_i)

而对于连续型随机变量 XX

E[X]=xf(x)dxE[X] = \int_{-\infty}^{\infty} x f(x) dx

方差描述数据的离散程度,方差越大意味着数据越分散。例如一个班的学习成绩如果方差越小,说明大家的差距越小
所以方差的计算思路是:每个值去减去期望值来获取偏移量,最后加起来
但是注意一点:偏移量可能有正有负。不能因为有不同方向的偏差互相抵消就说总体数据没有偏差。所以需要平方来去掉负数带来的影响
随机变量 XX方差 (Variance)「分散」

V[X]=E[(XE[X])2]V[X] = E[(X - E[X])^2]

在消除影响后,也可以通过根号来还原平方带来的量纲变化
随机变量 XX标准差 (Standard Deviation)「標準偏差」 为 \sqrt

通常,记

  • 期望值为 E[X]=μE[X] = \mu
  • 方差为 V[X]=σ2V[X] = \sigma^2
  • 标准差为 σ\sigma

期望值的算子具有线性性,但方差没有

命题

E[aX+b]=aE[X]+bE[aX + b] = aE[X] + b

V[aX+b]=a2V[X]V[aX + b] = a^2 V[X]

证明

由定义

E[aX+b]=xiX(Ω)(axi+b)P(X=xi)=axiX(Ω)xiP(X=xi)+bxiX(Ω)P(X=xi)=aE[X]+bV[aX+b]=E[(aX+bE[aX+b])2]=E[(aX+baE[X]b)2]=E[a2(XE[X])2]=a2E[(XE[X])2]=a2V[X]\begin{aligned} E[aX + b] &= \sum_{x_i \in X(\Omega)} (a x_i + b) P(X = x_i) \\ &= a \sum_{x_i \in X(\Omega)} x_i P(X = x_i) + b \sum_{x_i \in X(\Omega)} P(X = x_i) \\ &= a E[X] + b \\ V[aX + b] &= E[(aX + b - E[aX + b])^2] \\ &= E[(aX + b - aE[X] - b)^2] \\ &= E[a^2 (X - E[X])^2] \\ &= a^2 E[(X - E[X])^2] \\ &= a^2 V[X] \end{aligned}

实际计算中,方差往往用如下等价计算式

命题

V[X]=E[X2](E[X])2V[X] = E[X^2] - (E[X])^2

证明

由定义

V[X]=E[(XE[X])2]=E[X22XE[X]+(E[X])2]=E[X2]2E[X]E[X]+(E[X])2=E[X2](E[X])2\begin{aligned} V[X] &= E[(X - E[X])^2] \\ &= E[X^2 - 2X E[X] + (E[X])^2] \\ &= E[X^2] - 2E[X]E[X] + (E[X])^2 \\ &= E[X^2] - (E[X])^2 \end{aligned}

# 矩母函数

矩母函数像是概率分布的一个身份证
对于随机变量 XX,令

MX(t)=E[etX]M_X(t) = E[e^{tX}]

称为 XX矩母函数 (Moment Generating Function)「積率母関数」
此时,MX(t)M_X(t) 唯一确定一个概率分布,我们可以利用它的微分来计算期望值和方差

命题
对于概率变量 XX 以及矩母函数 MX(t)M_X(t),有

E[Xn]=MX(n)(0)E[X^n] = M_X^{(n)}(0)

由此

E[X]=MX(0),V[X]=MX(0)(MX(0))2E[X] = M_X'(0),\quad V[X] = M_X''(0) - (M_X'(0))^2

证明

dndtnMX(t)=dndtnE[etX]=E[dndtnetX]=E[XnetX]\frac{d^n}{dt^n} M_X(t) = \frac{d^n}{dt^n} E[e^{tX}] = E\left[\frac{d^n}{dt^n} e^{tX}\right] = E[X^n e^{tX}]

代入 t=0t=0 即得

E[Xn]=MX(n)(0)E[X^n] = M_X^{(n)}(0)

连续性的情况同理,此处省略

# Chebyshev 不等式

如同先前所说,方差表示的是数据的分散程度,所以方差比较小的概率分布中,数据会集中在期望值附近
Chebyshev 不等式给出一个定量的描述

定理 Chebyshev 不等式
对于概率变量 XX,令期望值 E[X]=μE[X] = \mu,方差 V[X]=σ2V[X] = \sigma^2
则对于任意 k>0k > 0,有

P(Xμk)σ2k2P(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2}

证明

仅证明离散型随机变量的情况,连续性同理
ffXX 的概率密度函数

σ2=E[(Xμ)2]=xiX(Ω)(xiμ)2f(xi)xiμk(xiμ)2f(xi)xiμkk2f(xi)=k2P(Xμk)\begin{aligned} \sigma^2 &= E[(X - \mu)^2] = \sum_{x_i \in X(\Omega)} (x_i - \mu)^2 f(x_i) \\ &\geq \sum_{|x_i - \mu| \geq k} (x_i - \mu)^2 f(x_i) \\ &\geq \sum_{|x_i - \mu| \geq k} k^2 f(x_i) \\ &= k^2 P(|X - \mu| \geq k) \end{aligned}

# 概率分布

接下来几个章节会介绍一些常见的概率分布

离散型

  • 二项分布
  • Poisson 分布
  • 几何分布

连续型

  • 均匀分布
  • 指数分布
  • 正态分布

当然世界上所有的概率现象不可能能被这几种概率分布全部涵盖,但是几乎所有的问题都可以通过这几种概率分布的组合来解决