# 样本

统计学中,通常想要研究一个不可直接测量的总体性质,例如全球人口的平均身高或者是寿命方差
通常考虑的方法是:从总体中选取一部分可测的群体,分析此群体的性质从而间接研究总体的性质

涉及到总体的概念有

  • 参数 (Parameter)「母数」:描述总体的统计量
  • 总体 (Population)「母集団」:研究对象的全体
  • 总体分布 (Population Distribution)「母分布」:总体中随机变量的概率分布情况
  • 总体平均 (Population Mean)「母平均」:总体中所有个体的平均数
  • 总体方差 (Population Variance)「母分散」:总体中所有个体的方差

另一边,对于选取出来的群体,相应地

  • 样本调查 (Sampling)「標本調査」:从总体中选取部分个体进行测量的操作本身
  • 样本 (Sample)「標本」:从总体中抽取的一部分个体
  • 样本统计量 (Statistic)「標本統計量」:从样本中计算得到的量
  • 样本平均 (Sample Mean)「標本平均」:样本个体的平均值
  • 样本方差 (Sample Variance)「標本分散」:样本个体的方差

为了确保样本能够较好地反映总体的性质,样本的获取通常需要确保随机性
例如有以下几种常见的获取样本的方法

  • 简单随机抽样:从总体中随机选取 nn 个个体作为样本
  • 系统抽样:从总体中每隔 kk 个个体选取一个作为样本
  • 分层抽样:将总体划分为若干层,然后从每一层中随机选取个体作为样本
  • 整群抽样:将总体划分为若干群,然后随机选取若干群作为样本

本质上样本等价于一组随机变量的观测值

定义
称随机变量 X1,X2,,XnX_1, X_2, \ldots, X_n独立同分布 (Independent and Identically Distributed, i.i.d.)「独立同分布」,当且仅当

  • X1,X2,,XnX_1, X_2, \ldots, X_n 相互独立
  • X1,X2,,XnX_1, X_2, \ldots, X_n 服从同一概率分布

# 样本统计量

样本是选取出的可测群体,可以计算其统计量
从总体中抽取 nn 个样本 X1,X2,,XnX_1, X_2, \ldots, X_n

定义

  • 样本平均: Xn=1ni=1nXi\displaystyle\overline X_n = \frac{1}{n} \sum_{i=1}^n X_i \quad
  • 样本无偏方差: S2=1n1i=1n(XiXn)2\displaystyle S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2 \quad
  • 样本标准差: S=S2\displaystyle S = \sqrt{S^2} \quad

样本方差之所有有平方,是为了确保其为非负值,去除正负抵消的可能性,从而真正得到反映出离散程度

样本统计量与总体参数之间存在关系
即使总体不可测,永远不可知总体参数,但是可以确保其一定是常数不变
而另一边,样本统计量的值依赖于样本的选取方式,不同的选取会导致计算出不同的样本统计量

所以样本统计量本身成为一个随机变量,服从某一个概率分布,称为样本统计量的 抽样分布 (Sampling Distribution)「標本分布」
即使在抽样分布和总体分布都不明确的情况下,也可以明确两分布之间的关系

样本统计量本身具有如下性质:这是我们可以利用样本来分析总体的原因

  • 样本平均被期待与总体平均一致,且随着样本量增大,样本平均的分散程度减小
  • 样本方差在数据量越大时均值与方差都变大

命题
令来自同一总体的随机变量 X1,X2,,XnX_1, X_2, \ldots, X_n,则

{E[Xn]=μV[Xn]=σ2n,{E[S2]=σ2V[S2]=1n(μ4n3n1σ4)\begin{cases} \displaystyle E[\overline X_n] = \mu \\[6pt] \displaystyle V[\overline X_n] = \frac{\sigma^2}{n} \end{cases},\qquad \begin{cases} \displaystyle E[S^2] = \sigma^2 \\[6pt] \displaystyle V[S^2] = \frac{1}{n} \left( \mu_4 - \frac{n-3}{n-1} \sigma^4 \right) \end{cases}

证明

由线性性质可知

E[Xn]=E[1ni=1nXi]=1ni=1nE[Xi]=μE[\overline X_n] = E\left[\frac{1}{n} \sum_{i=1}^n X_i\right] = \frac{1}{n} \sum_{i=1}^n E[X_i] = \mu

又因为 XiX_i 相互独立,所以

V[Xn]=V[1ni=1nXi]=1n2i=1nV[Xi]=σ2n\begin{aligned} V[\overline X_n] &= V\left[\frac{1}{n} \sum_{i=1}^n X_i\right] = \frac{1}{n^2} \sum_{i=1}^n V[X_i] = \frac{\sigma^2}{n} \end{aligned}

对于样本方差

E[S2]=E[1n1i=1n(XiXn)2]=1n1(i=1nE[Xi2]nE[Xn2])=1n1(n(σ2+μ2)n(V[Xn]+(E[Xn])2))=1n1(n(σ2+μ2)n(σ2n+μ2))=σ2\begin{aligned} E[S^2] &= E\left[\frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2\right] \\ &= \frac{1}{n-1} \left( \sum_{i=1}^n E[X_i^2] - n E[\overline X_n^2] \right) \\ &= \frac{1}{n-1} \left( n(\sigma^2 + \mu^2) - n \left( V[\overline X_n] + (E[\overline X_n])^2 \right) \right) \\ &= \frac{1}{n-1} \left( n(\sigma^2 + \mu^2) - n \left( \frac{\sigma^2}{n} + \mu^2 \right) \right) = \sigma^2 \end{aligned}

方差

V[S2]=E[S4](E[S2])2=E[(1n1i=1n(XiXn)2)2]σ4=1(n1)2(i=1nE[(XiXn)4]+ijE[(XiXn)2(XjXn)2])σ4=1(n1)2(nμ4+n(n1)(n1n)22σ4)σ4=1n(μ4n3n1σ4)\begin{aligned} V[S^2] &= E[S^4] - (E[S^2])^2 \\ &= E\left[\left(\frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2\right)^2\right] - \sigma^4 \\ &= \frac{1}{(n-1)^2} \left( \sum_{i=1}^n E[(X_i - \overline X_n)^4] + \sum_{i \neq j} E[(X_i - \overline X_n)^2 (X_j - \overline X_n)^2] \right) - \sigma^4 \\ &= \frac{1}{(n-1)^2} \left( n \mu_4 + n(n-1) \left( \frac{n-1}{n} \right)^2 2 \sigma^4 \right) - \sigma^4 \\ &= \frac{1}{n} \left( \mu_4 - \frac{n-3}{n-1} \sigma^4 \right) \end{aligned}

\square

# 弱大数定律

定理 弱大数定律
X1,X2,,XnX_1, X_2, \ldots, X_n 为来自总体 XXnn 个独立同分布的随机变量
那么对于任意 ε>0\varepsilon \gt 0,有

limnP(Xnμε)=0\lim_{n \to \infty} P(|\overline{X}_n - \mu| \geq \varepsilon) = 0

证明

由 Chebyshev 不等式知道

0P(Xnμε)σ2nε20 \leq P(|\overline{X}_n - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{n \varepsilon^2}

nn \to \infty 时,右侧趋近于 00,所以有

limnP(Xnμε)=0\lim_{n \to \infty} P(|\overline{X}_n - \mu| \geq \varepsilon) = 0

\square

# 中心极限定理

中心极限定理是现代统计学的基石
它揭示了对于任意较大的样本量,都可以构造出服从标准正态分布的随机变量
这同时也成就了正态分布在统计学中的重要地位

定理 中心极限定理
X1,X2,,XnX_1, X_2, \ldots, X_n 为来自总体 XXnn 个独立同分布的随机变量
则对于任意 a,bRa,b \in \mathbb R,有

P(aXnμσ/nb)12πabex22dx(n)P(a \leq \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \leq b) \to \frac{1}{\sqrt{2\pi}} \int_a^b e^{-\frac{x^2}{2}} \, dx \quad (n \to \infty)

证明(暂时省略)

实际上,在中心极限定理被发现之前,就已经有如下结论

定理 De Moivre-Laplace 定理
X1,X2,,XnX_1, X_2, \ldots, X_n 为服从 B(1,p)B(1,p) 分布的 nn 个独立同分布的随机变量
则对于任意 a,bR, a<ba,b \in \mathbb R,\ a \lt b,有

P(ai=1nXinpnp(1p)b)12πabex22dx(n)P\left(a \leq \frac{\sum_{i=1}^n X_i - np}{\sqrt{np(1-p)}} \leq b\right) \to \frac{1}{\sqrt{2\pi}} \int_a^b e^{-\frac{x^2}{2}} \, dx \quad (n \to \infty)

证明(暂时省略)
  • 也就是说,二项分布在样本量足够大的情况下,可以近似地看作正态分布 N(np,np(1p))N(np, np(1-p))

内容已经过 Gemini 3.0 Pro 审查