# 随机变量
定义
若实数值映射 X:Ω→R 对任意 x∈R 满足
{ω∈Ω∣X(ω)≤x}∈F
则称 X 为 (Ω,F,P) 上的 随机变量 (Random Variable)「確率変数」
每个 X 即对应一个事件,并映射为一个概率
如果记概率
pj=P(X=xj)
那么组
(x1,p1),(x2,p2),…
称为随机变量 X 的 概率分布 (Probability Distribution)「確率分布」
- 若 X 的取值为至多可数集,则称 X 为 离散型随机变量 (Discrete Random Variable)「離散型確率変数」
- 若存在 f:R→[0,∞) 使得 P(a≤X≤b)=∫abf(x)dx, (a≤b),则称 X 为 连续型随机变量 (Continuous Random Variable)「連続型確率変数」
在连续型随机变量中,称 f 为 X 的 概率密度函数 (Probability Density Function)「確率密度関数」
pdf 是连续性随机变量特有的概念,甚至有的书中定义绝对连续分布的要求就是有概率密度函数
在随机变量的基础上,我们可以定义出表示概率分布情况的函数
定义
对于 (Ω,F,P) 上的随机变量 X
- 称 FX(x)=P(X≤x) 为 X 的 累积分布函数 (Cumulative Distribution Function)
研究 PDF(概率密度函数)和 CDF(累积分布函数)是研究概率分布情况的核心
# 期望值与方差
期望值和方差是描述概率分布情况的重要参数。
期望值指示了如字面意思的,” 我们可以如何期待结果 “。例如用期望值来预测彩票收入
期望值的计算方式非常简单:每个值去乘以它的概率,最后加起来
对于离散型随机变量 X 其 期望值 (Expected Value)「期待値」 为
E[X]=xi∈X(Ω)∑xiP(X=xi)
而对于连续型随机变量 X
E[X]=∫−∞∞xf(x)dx
方差描述数据的离散程度,方差越大意味着数据越分散。例如一个班的学习成绩如果方差越小,说明大家的差距越小
所以方差的计算思路是:每个值去减去期望值来获取偏移量,最后加起来
但是注意一点:偏移量可能有正有负。不能因为有不同方向的偏差互相抵消就说总体数据没有偏差。所以需要平方来去掉负数带来的影响
随机变量 X 的 方差 (Variance)「分散」 为
V[X]=E[(X−E[X])2]
在消除影响后,也可以通过根号来还原平方带来的量纲变化
随机变量 X 的 标准差 (Standard Deviation)「標準偏差」 为 \sqrt
通常,记
- 期望值为 E[X]=μ
- 方差为 V[X]=σ2
- 标准差为 σ
期望值的算子具有线性性,但方差没有
命题
E[aX+b]=aE[X]+b
V[aX+b]=a2V[X]
证明
由定义
E[aX+b]V[aX+b]=xi∈X(Ω)∑(axi+b)P(X=xi)=axi∈X(Ω)∑xiP(X=xi)+bxi∈X(Ω)∑P(X=xi)=aE[X]+b=E[(aX+b−E[aX+b])2]=E[(aX+b−aE[X]−b)2]=E[a2(X−E[X])2]=a2E[(X−E[X])2]=a2V[X]
实际计算中,方差往往用如下等价计算式
命题
V[X]=E[X2]−(E[X])2
证明
由定义
V[X]=E[(X−E[X])2]=E[X2−2XE[X]+(E[X])2]=E[X2]−2E[X]E[X]+(E[X])2=E[X2]−(E[X])2
# 矩母函数
矩母函数像是概率分布的一个身份证
对于随机变量 X,令
MX(t)=E[etX]
称为 X 的 矩母函数 (Moment Generating Function)「積率母関数」
此时,MX(t) 唯一确定一个概率分布,我们可以利用它的微分来计算期望值和方差
命题
对于概率变量 X 以及矩母函数 MX(t),有
E[Xn]=MX(n)(0)
由此
E[X]=MX′(0),V[X]=MX′′(0)−(MX′(0))2
证明
dtndnMX(t)=dtndnE[etX]=E[dtndnetX]=E[XnetX]
代入 t=0 即得
E[Xn]=MX(n)(0)
连续性的情况同理,此处省略
# Chebyshev 不等式
如同先前所说,方差表示的是数据的分散程度,所以方差比较小的概率分布中,数据会集中在期望值附近
Chebyshev 不等式给出一个定量的描述
定理 Chebyshev 不等式
对于概率变量 X,令期望值 E[X]=μ,方差 V[X]=σ2
则对于任意 k>0,有
P(∣X−μ∣≥k)≤k2σ2
证明
仅证明离散型随机变量的情况,连续性同理
令 f 为 X 的概率密度函数
σ2=E[(X−μ)2]=xi∈X(Ω)∑(xi−μ)2f(xi)≥∣xi−μ∣≥k∑(xi−μ)2f(xi)≥∣xi−μ∣≥k∑k2f(xi)=k2P(∣X−μ∣≥k)
# 概率分布
接下来几个章节会介绍一些常见的概率分布
离散型
连续型
当然世界上所有的概率现象不可能能被这几种概率分布全部涵盖,但是几乎所有的问题都可以通过这几种概率分布的组合来解决