# 随机变量

定义
令 $(\Omega, \mathcal F, P)$ 为概率空间
称实数值映射 $X:\Omega \to \mathbb R$ 为 $(\Omega, \mathcal F, P)$ 上的 随机变量 (Random Variable)「確率変数」，当且仅当对于任意实数 $x$ ，事件

$\{\omega \in \Omega \mid X(\omega) \leq x\} \in \mathcal F$

每个 $X$ 即对应一个事件，并映射为一个概率

如果记概率

$p_j = P(X = x_j)$

那么组

$(x_1, p_1), (x_2, p_2), \ldots$

称为随机变量 $X$ 的 概率分布 (Probability Distribution)「確率分布」

若 $X$ 的取值为至多可数集，则称 $X$ 为 离散型随机变量 (Discrete Random Variable)「離散型確率変数」
若存在 $f:\mathbb R \to [0,\infty)$ 使得

$P(a \leq X \leq b) = \int_a^b f(x)dx,\ (a \leq b)$

则称 $X$ 为 连续型随机变量 (Continuous Random Variable)「連続型確率変数」
- 称 $f$ 为 $X$ 的 概率密度函数 (Probability Density Function)「確率密度関数」
- 概率密度函数是连续性随机变量特有的概念，甚至有的书中，定义绝对连续分布的要求就是有概率密度函数

在随机变量的基础上，可以定义出表示概率分布情况的函数

定义
令 $(\Omega, \mathcal F, P)$ 上的随机变量 $X$ ，称

$F_X(x) = P(X \leq x)$

为 $X$ 的 累积分布函数 (Cumulative Distribution Function)

研究 PDF（概率密度函数）和 CDF（累积分布函数）是研究概率分布情况的核心

# 期望值与方差

期望值和方差是描述概率分布情况的重要参数。

期望值指示了如字面意思的，” 我们可以如何期待结果 “。例如用期望值来预测彩票收入
计算方式非常简单：每个值去乘以它的概率，最后加起来，这很符合直觉
离散型随机变量或连续型随机变量 $X$ 的 期望值 (Expected Value)「期待値」 定义为

$E[X] = \begin{cases} \displaystyle\sum_{x_i \in X(\Omega)} x_i P(X = x_i), & \text{X is Discrete} \\[16pt] \displaystyle\int_{-\infty}^{\infty} x f(x) dx, & \text{X is Continuous} \end{cases}$

方差描述数据的离散程度，方差越大意味着数据越分散。例如一个班的学习成绩如果方差越小，说明大家的差距越小
所以方差的计算思路是：每个值去减去期望值来获取偏移量，最后加起来
但是注意一点：偏移量可能有正有负。不能因为有不同方向的偏差互相抵消就说总体数据没有偏差。所以需要平方来去掉负数带来的影响
离散型随机变量或连续型随机变量 $X$ 的 方差 (Variance)「分散」 定义为

$V[X] = E[(X - E[X])^2] = \begin{cases} \displaystyle\sum_{x_i \in X(\Omega)} (x_i - E[X])^2 P(X = x_i), & \text{X is Discrete} \\[16pt] \displaystyle\int_{-\infty}^{\infty} (x - E[X])^2 f(x) dx, & \text{X is Continuous} \end{cases}$

在消除正负号所带来的影响后，也可以通过根号来还原平方带来的量纲变化
定义随机变量 $X$ 的 标准差 (Standard Deviation)「標準偏差」 为

$\sigma = \sqrt{V[X]}$

通常，习惯上记

期望值为 $E[X] = \mu$
方差为 $V[X] = \sigma^2$
标准差为 $\sigma$

两种算子具有以下基本计算性质

期望值是线性的
方差具有二次齐次性

命题

$E[aX + b] = aE[X] + b$
$V[aX + b] = a^2 V[X]$

证明

由定义，对于离散型随机变量

$\begin{aligned} E[aX + b] &= \sum_{x_i \in X(\Omega)} (a x_i + b) P(X = x_i) \\ &= a \sum_{x_i \in X(\Omega)} x_i P(X = x_i) + b \sum_{x_i \in X(\Omega)} P(X = x_i) \\ &= a E[X] + b \\ V[aX + b] &= E[(aX + b - E[aX + b])^2] \\ &= E[(aX + b - aE[X] - b)^2] \\ &= E[a^2 (X - E[X])^2] \\ &= a^2 E[(X - E[X])^2] \\ &= a^2 V[X] \end{aligned}$

同样地，对于连续型随机变量

$\begin{aligned} E[aX + b] &= \int_{-\infty}^{\infty} (a x + b) f(x) dx \\ &= a \int_{-\infty}^{\infty} x f(x) dx + b \int_{-\infty}^{\infty} f(x) dx \\ &= a E[X] + b \\ V[aX + b] &= E[(aX + b - E[aX + b])^2] \\ &= \int_{-\infty}^{\infty} (a x + b - a E[X] - b)^2 f(x) dx \\ &= \int_{-\infty}^{\infty} a^2 (x - E[X])^2 f(x) dx \\ &= a^2 E[(X - E[X])^2] \\ &= a^2 V[X] \end{aligned}$

$\square$

实际计算中，方差往往用如下等价计算式

命题

$V[X] = E[X^2] - (E[X])^2$

证明

由定义

$\begin{aligned} V[X] &= E[(X - E[X])^2] \\ &= E[X^2 - 2X E[X] + (E[X])^2] \\ &= E[X^2] - 2E[X]E[X] + (E[X])^2 \\ &= E[X^2] - (E[X])^2 \end{aligned}$

$\square$

# 矩母函数

矩母函数像是概率分布的一个身份证
对于随机变量 $X$ ，称

$M_X(t) = E[e^{tX}]$

为 $X$ 的 矩母函数 (Moment Generating Function)「積率母関数」
此时， $M_X(t)$ 唯一确定一个概率分布，我们可以利用它的微分来计算期望值和方差

命题
对于概率变量 $X$ 以及矩母函数 $M_X(t)$ ，有

$E[X^n] = M_X^{(n)}(0)$

由此

$E[X] = M_X'(0),\quad V[X] = M_X''(0) - (M_X'(0))^2$

证明

期望值算子的线性性质可知

$\frac{d^n}{dt^n} M_X(t) = \frac{d^n}{dt^n} E[e^{tX}] = E\left[\frac{d^n}{dt^n} e^{tX}\right] = E[X^n e^{tX}]$

代入 $t=0$ 即得

$E[X^n] = M_X^{(n)}(0)$

$\square$

# Chebyshev 不等式

方差表示的是数据的分散程度，所以方差比较小的概率分布中，数据会集中在期望值附近
Chebyshev 不等式针对这个 “集中” 给出了一个定量的描述

定理 Chebyshev 不等式
对于概率变量 $X$ ，令期望值 $E[X] = \mu$ ，方差 $V[X] = \sigma^2$
则对于任意 $k > 0$ ，有

$P(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2}$

证明

仅证明离散型随机变量的情况，连续性同理
令 $f$ 为 $X$ 的概率密度函数

$\begin{aligned} \sigma^2 &= E[(X - \mu)^2] = \sum_{x_i \in X(\Omega)} (x_i - \mu)^2 f(x_i) \\ &\geq \sum_{|x_i - \mu| \geq k} (x_i - \mu)^2 f(x_i) \\ &\geq \sum_{|x_i - \mu| \geq k} k^2 f(x_i) \\ &= k^2 P(|X - \mu| \geq k) \end{aligned}$

由此得

$P(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2}$

$\square$

这意味着，均值的 $k$ - 邻域外的数据所占比例不会超过 $\dfrac{\sigma^2}{k^2}$ ，所以方差越小，数据越集中在均值附近

# 随机变量

# 期望值与方差

# 矩母函数

# Chebyshev 不等式

【线性代数】3-线性方程组

数学笔记目录