# 样本

统计学中,通常想要研究一个不可直接测量的总体性质,例如全球人口的平均身高或者是寿命方差
通常考虑的方法是:从总体中选取一部分可测的群体,分析此群体的性质从而间接研究总体的性质

涉及到总体的概念有

  • 参数 (Parameter)「母数」:描述总体的统计量
  • 总体 (Population)「母集団」:研究对象的全体
  • 总体分布 (Population Distribution)「母分布」:总体中随机变量的概率分布情况
  • 总体平均 (Population Mean)「母平均」:总体中所有个体的平均数
  • 总体方差 (Population Variance)「母分散」:总体中所有个体的方差

另一边,对于选取出来的群体,相应地

  • 样本调查 (Sampling)「標本調査」:从总体中选取部分个体进行测量的操作本身
  • 样本 (Sample)「標本」:从总体中抽取的一部分个体
  • 样本统计量 (Statistic)「標本統計量」:从样本中计算得到的量
  • 样本平均 (Sample Mean)「標本平均」:样本个体的平均值
  • 样本方差 (Sample Variance)「標本分散」:样本个体的方差

# 标本的获取

为了确保样本能够较好地反映总体的性质,样本的获取通常需要确保随机性
例如有以下几种常见的获取样本的方法

  • 简单随机抽样:从总体中随机选取 nn 个个体作为样本
  • 系统抽样:从总体中每隔 kk 个个体选取一个作为样本
  • 分层抽样:将总体划分为若干层,然后从每一层中随机选取个体作为样本
  • 整群抽样:将总体划分为若干群,然后随机选取若干群作为样本

# 样本统计量

样本是选取出的可测群体,可以计算其统计量
从总体中抽取 nn 个样本 X1,X2,,XnX_1, X_2, \ldots, X_n

定义样本平均为

Xn=1ni=1nXi\overline X_n = \frac{1}{n} \sum_{i=1}^n X_i

定义样本(有偏)方差为

s2=1ni=1n(XiXn)2s^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \overline X_n)^2

定义样本(有偏)标准差为

s=s2s = \sqrt{s^2}

定义样本无偏方差为

S2=1n1i=1n(XiXn)2S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2

定义样本无偏标准差为

S=S2S = \sqrt{S^2}

此处出现两种方差的理由会在统计推测的章节给出说明


样本统计量与总体参数之间存在关系
即使总体不可测,永远不可知总体参数,但是可以确保其一定是常数不变
而另一边,样本统计量的值依赖于样本的选取方式,不同的选取会导致计算出不同的样本统计量
所以样本统计量本身成为一个随机变量,服从某一个概率分布,称为样本统计量的 抽样分布 (Sampling Distribution)「標本分布」
即使在抽样分布和总体分布都不明确的情况下,也可以明确两分布之间的关系

命题
从平均 μ\mu,方差 σ2\sigma^2 的总体中随机抽取 nn 个样本 X1,X2,,XnX_1, X_2, \ldots, X_n,则此时样本平均 Xn\overline X_n 所服从的抽样分布满足

E[Xn]=μE[\overline X_n] = \mu

V[Xn]=σ2nV[\overline X_n] = \frac{\sigma^2}{n}

直觉上,当样本量 nn 足够大时,样本平均倾向于接近真实值 μ\mu,所以样本平均的波动会比较小,方差趋于 00

通过中心极限定理,可以确保对于每次选取的样本,由如下方式计算出的统计量 ZZ

Z=Xnμσ/nZ = \frac{\overline X_n - \mu}{\sigma / \sqrt{n}}

服从标准正态分布 N(0,1)N(0,1)

研究样本时,重要的不是各个样本具体是多少
重要的是在不同的样本选取下,样本统计量的分布情况
特别是需要关注分散的中心:Xn\overline X_n 的情况

中心极限定理给出:Xn\overline X_n 服从正态分布。所以在处理大量样本时,会自然地出现正态分布

尤其,统计理论研究中,几乎都会假设总体服从正态分布
在此基础上 XnN(μ,σ2n)\overline X_n \sim N(\mu, \frac{\sigma^2}{n}) 也更为正确

而当总体不服从正态分布时,只要样本量足够大Xn\overline X_n 依然会趋近于此正态分布

但是实际应用问题中,样本平均的真实分布与正态分布会存在一定差异
请在时常知晓这个差异的前提下进行统计分析