# 样本

统计学中，通常想要研究一个不可直接测量的总体性质，例如全球人口的平均身高或者是寿命方差
通常考虑的方法是：从总体中选取一部分可测的群体，分析此群体的性质从而间接研究总体的性质

涉及到总体的概念有

参数 (Parameter)「母数」：描述总体的统计量
总体 (Population)「母集団」：研究对象的全体
总体分布 (Population Distribution)「母分布」：总体中随机变量的概率分布情况
总体平均 (Population Mean)「母平均」：总体中所有个体的平均数
总体方差 (Population Variance)「母分散」：总体中所有个体的方差

另一边，对于选取出来的群体，相应地

样本调查 (Sampling)「標本調査」：从总体中选取部分个体进行测量的操作本身
样本 (Sample)「標本」：从总体中抽取的一部分个体
样本统计量 (Statistic)「標本統計量」：从样本中计算得到的量
样本平均 (Sample Mean)「標本平均」：样本个体的平均值
样本方差 (Sample Variance)「標本分散」：样本个体的方差

# 标本的获取

为了确保样本能够较好地反映总体的性质，样本的获取通常需要确保随机性
例如有以下几种常见的获取样本的方法

简单随机抽样：从总体中随机选取 $n$ 个个体作为样本
系统抽样：从总体中每隔 $k$ 个个体选取一个作为样本
分层抽样：将总体划分为若干层，然后从每一层中随机选取个体作为样本
整群抽样：将总体划分为若干群，然后随机选取若干群作为样本

# 样本统计量

样本是选取出的可测群体，可以计算其统计量
从总体中抽取 $n$ 个样本 $X_1, X_2, \ldots, X_n$ 时

定义样本平均为

$\overline X_n = \frac{1}{n} \sum_{i=1}^n X_i$

定义样本（有偏）方差为

$s^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \overline X_n)^2$

样本方差之所有有平方，是为了确保其为非负值，去除正负抵消的可能性，从而真正得到反映出离散程度

定义样本（有偏）标准差为

$s = \sqrt{s^2}$

定义样本无偏方差为

$S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2$

定义样本无偏标准差为

$S = \sqrt{S^2}$

此处出现两种方差的理由会在统计推测的章节给出说明

样本统计量与总体参数之间存在关系
即使总体不可测，永远不可知总体参数，但是可以确保其一定是常数不变
而另一边，样本统计量的值依赖于样本的选取方式，不同的选取会导致计算出不同的样本统计量
所以样本统计量本身成为一个随机变量，服从某一个概率分布，称为样本统计量的 抽样分布 (Sampling Distribution)「標本分布」
即使在抽样分布和总体分布都不明确的情况下，也可以明确两分布之间的关系

命题
从平均 $\mu$ ，方差 $\sigma^2$ 的总体中随机抽取 $n$ 个样本 $X_1, X_2, \ldots, X_n$ ，则此时样本平均 $\overline X_n$ 所服从的抽样分布满足

$E[\overline X_n] = \mu$

$V[\overline X_n] = \frac{\sigma^2}{n}$

直觉上，当样本量 $n$ 足够大时，样本平均倾向于接近真实值 $\mu$ ，所以样本平均的波动会比较小，方差趋于 $0$

通过中心极限定理，可以确保对于每次选取的样本，由如下方式计算出的统计量 $Z$

$Z = \frac{\overline X_n - \mu}{\sigma / \sqrt{n}}$

服从标准正态分布 $N(0,1)$

研究样本时，重要的不是各个样本具体是多少
重要的是在不同的样本选取下，样本统计量的分布情况
特别是需要关注分散的中心： $\overline X_n$ 的情况

中心极限定理给出： $\overline X_n$ 服从正态分布。所以在处理大量样本时，会自然地出现正态分布

尤其，统计理论研究中，几乎都会假设总体服从正态分布
在此基础上 $\overline X_n \sim N(\mu, \frac{\sigma^2}{n})$ 也更为正确

而当总体不服从正态分布时，只要样本量足够大， $\overline X_n$ 依然会趋近于此正态分布

但是实际应用问题中，样本平均的真实分布与正态分布会存在一定差异
请在时常知晓这个差异的前提下进行统计分析

# 样本

# 标本的获取

# 样本统计量

RW生词本

【FreeCodeCamp】HTML 基础复习