# 样本

统计学中，通常想要研究一个不可直接测量的总体性质，例如全球人口的平均身高或者是寿命方差
通常考虑的方法是：从总体中选取一部分可测的群体，分析此群体的性质从而间接研究总体的性质

涉及到总体的概念有

参数 (Parameter)「母数」：描述总体的统计量
总体 (Population)「母集団」：研究对象的全体
总体分布 (Population Distribution)「母分布」：总体中随机变量的概率分布情况
总体平均 (Population Mean)「母平均」：总体中所有个体的平均数
总体方差 (Population Variance)「母分散」：总体中所有个体的方差

另一边，对于选取出来的群体，相应地

样本调查 (Sampling)「標本調査」：从总体中选取部分个体进行测量的操作本身
样本 (Sample)「標本」：从总体中抽取的一部分个体
样本统计量 (Statistic)「標本統計量」：从样本中计算得到的量
样本平均 (Sample Mean)「標本平均」：样本个体的平均值
样本方差 (Sample Variance)「標本分散」：样本个体的方差

为了确保样本能够较好地反映总体的性质，样本的获取通常需要确保随机性
例如有以下几种常见的获取样本的方法

简单随机抽样：从总体中随机选取 $n$ 个个体作为样本
系统抽样：从总体中每隔 $k$ 个个体选取一个作为样本
分层抽样：将总体划分为若干层，然后从每一层中随机选取个体作为样本
整群抽样：将总体划分为若干群，然后随机选取若干群作为样本

本质上样本等价于一组随机变量的观测值

定义
称随机变量 $X_1, X_2, \ldots, X_n$ 为 独立同分布 (Independent and Identically Distributed, i.i.d.)「独立同分布」，当且仅当

$X_1, X_2, \ldots, X_n$ 相互独立
$X_1, X_2, \ldots, X_n$ 服从同一概率分布

# 样本统计量

样本是选取出的可测群体，可以计算其统计量
从总体中抽取 $n$ 个样本 $X_1, X_2, \ldots, X_n$ 时

定义

样本平均: $\displaystyle\overline X_n = \frac{1}{n} \sum_{i=1}^n X_i \quad$
样本无偏方差: $\displaystyle S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2 \quad$
样本标准差: $\displaystyle S = \sqrt{S^2} \quad$

样本方差之所有有平方，是为了确保其为非负值，去除正负抵消的可能性，从而真正得到反映出离散程度

样本统计量与总体参数之间存在关系
即使总体不可测，永远不可知总体参数，但是可以确保其一定是常数不变
而另一边，样本统计量的值依赖于样本的选取方式，不同的选取会导致计算出不同的样本统计量

所以样本统计量本身成为一个随机变量，服从某一个概率分布，称为样本统计量的 抽样分布 (Sampling Distribution)「標本分布」
即使在抽样分布和总体分布都不明确的情况下，也可以明确两分布之间的关系

样本统计量本身具有如下性质：这是我们可以利用样本来分析总体的原因

样本平均被期待与总体平均一致，且随着样本量增大，样本平均的分散程度减小
样本方差在数据量越大时均值与方差都变大

命题
令来自同一总体的随机变量 $X_1, X_2, \ldots, X_n$ ，则

$\begin{cases} \displaystyle E[\overline X_n] = \mu \\[6pt] \displaystyle V[\overline X_n] = \frac{\sigma^2}{n} \end{cases},\qquad \begin{cases} \displaystyle E[S^2] = \sigma^2 \\[6pt] \displaystyle V[S^2] = \frac{1}{n} \left( \mu_4 - \frac{n-3}{n-1} \sigma^4 \right) \end{cases}$

证明

由线性性质可知

$E[\overline X_n] = E\left[\frac{1}{n} \sum_{i=1}^n X_i\right] = \frac{1}{n} \sum_{i=1}^n E[X_i] = \mu$

又因为 $X_i$ 相互独立，所以

$\begin{aligned} V[\overline X_n] &= V\left[\frac{1}{n} \sum_{i=1}^n X_i\right] = \frac{1}{n^2} \sum_{i=1}^n V[X_i] = \frac{\sigma^2}{n} \end{aligned}$

对于样本方差

$\begin{aligned} E[S^2] &= E\left[\frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2\right] \\ &= \frac{1}{n-1} \left( \sum_{i=1}^n E[X_i^2] - n E[\overline X_n^2] \right) \\ &= \frac{1}{n-1} \left( n(\sigma^2 + \mu^2) - n \left( V[\overline X_n] + (E[\overline X_n])^2 \right) \right) \\ &= \frac{1}{n-1} \left( n(\sigma^2 + \mu^2) - n \left( \frac{\sigma^2}{n} + \mu^2 \right) \right) = \sigma^2 \end{aligned}$

方差

$\begin{aligned} V[S^2] &= E[S^4] - (E[S^2])^2 \\ &= E\left[\left(\frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2\right)^2\right] - \sigma^4 \\ &= \frac{1}{(n-1)^2} \left( \sum_{i=1}^n E[(X_i - \overline X_n)^4] + \sum_{i \neq j} E[(X_i - \overline X_n)^2 (X_j - \overline X_n)^2] \right) - \sigma^4 \\ &= \frac{1}{(n-1)^2} \left( n \mu_4 + n(n-1) \left( \frac{n-1}{n} \right)^2 2 \sigma^4 \right) - \sigma^4 \\ &= \frac{1}{n} \left( \mu_4 - \frac{n-3}{n-1} \sigma^4 \right) \end{aligned}$

$\square$

# 弱大数定律

定理 弱大数定律
令 $X_1, X_2, \ldots, X_n$ 为来自总体 $X$ 的 $n$ 个独立同分布的随机变量
那么对于任意 $\varepsilon \gt 0$ ，有

$\lim_{n \to \infty} P(|\overline{X}_n - \mu| \geq \varepsilon) = 0$

证明

由 Chebyshev 不等式知道

$0 \leq P(|\overline{X}_n - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{n \varepsilon^2}$

当 $n \to \infty$ 时，右侧趋近于 $0$ ，所以有

$\lim_{n \to \infty} P(|\overline{X}_n - \mu| \geq \varepsilon) = 0$

$\square$

# 中心极限定理

中心极限定理是现代统计学的基石
它揭示了对于任意较大的样本量，都可以构造出服从标准正态分布的随机变量
这同时也成就了正态分布在统计学中的重要地位

定理 中心极限定理
令 $X_1, X_2, \ldots, X_n$ 为来自总体 $X$ 的 $n$ 个独立同分布的随机变量
则对于任意 $a,b \in \mathbb R$ ，有

$P(a \leq \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \leq b) \to \frac{1}{\sqrt{2\pi}} \int_a^b e^{-\frac{x^2}{2}} \, dx \quad (n \to \infty)$

证明（暂时省略）

实际上，在中心极限定理被发现之前，就已经有如下结论

定理 De Moivre-Laplace 定理
令 $X_1, X_2, \ldots, X_n$ 为服从 $B(1,p)$ 分布的 $n$ 个独立同分布的随机变量
则对于任意 $a,b \in \mathbb R,\ a \lt b$ ，有

$P\left(a \leq \frac{\sum_{i=1}^n X_i - np}{\sqrt{np(1-p)}} \leq b\right) \to \frac{1}{\sqrt{2\pi}} \int_a^b e^{-\frac{x^2}{2}} \, dx \quad (n \to \infty)$

证明（暂时省略）

也就是说，二项分布在样本量足够大的情况下，可以近似地看作正态分布 $N(np, np(1-p))$

内容已经过 Gemini 3.0 Pro 审查

# 样本

# 样本统计量

# 弱大数定律

# 中心极限定理

【数理统计】6-抽样分布

【数理统计】4-多维分布