# 样本
统计学中,通常想要研究一个不可直接测量的总体性质,例如全球人口的平均身高或者是寿命方差
通常考虑的方法是:从总体中选取一部分可测的群体,分析此群体的性质从而间接研究总体的性质
涉及到总体的概念有
- 参数 (Parameter)「母数」:描述总体的统计量
- 总体 (Population)「母集団」:研究对象的全体
- 总体分布 (Population Distribution)「母分布」:总体中随机变量的概率分布情况
- 总体平均 (Population Mean)「母平均」:总体中所有个体的平均数
- 总体方差 (Population Variance)「母分散」:总体中所有个体的方差
另一边,对于选取出来的群体,相应地
- 样本调查 (Sampling)「標本調査」:从总体中选取部分个体进行测量的操作本身
- 样本 (Sample)「標本」:从总体中抽取的一部分个体
- 样本统计量 (Statistic)「標本統計量」:从样本中计算得到的量
- 样本平均 (Sample Mean)「標本平均」:样本个体的平均值
- 样本方差 (Sample Variance)「標本分散」:样本个体的方差
# 标本的获取
为了确保样本能够较好地反映总体的性质,样本的获取通常需要确保随机性
例如有以下几种常见的获取样本的方法
- 简单随机抽样:从总体中随机选取 个个体作为样本
- 系统抽样:从总体中每隔 个个体选取一个作为样本
- 分层抽样:将总体划分为若干层,然后从每一层中随机选取个体作为样本
- 整群抽样:将总体划分为若干群,然后随机选取若干群作为样本
# 样本统计量
样本是选取出的可测群体,可以计算其统计量
从总体中抽取 个样本 时
定义样本平均为
定义样本(有偏)方差为
定义样本(有偏)标准差为
定义样本无偏方差为
定义样本无偏标准差为
此处出现两种方差的理由会在统计推测的章节给出说明
样本统计量与总体参数之间存在关系
即使总体不可测,永远不可知总体参数,但是可以确保其一定是常数不变
而另一边,样本统计量的值依赖于样本的选取方式,不同的选取会导致计算出不同的样本统计量
所以样本统计量本身成为一个随机变量,服从某一个概率分布,称为样本统计量的 抽样分布 (Sampling Distribution)「標本分布」
即使在抽样分布和总体分布都不明确的情况下,也可以明确两分布之间的关系
直觉上,当样本量 足够大时,样本平均倾向于接近真实值 ,所以样本平均的波动会比较小,方差趋于
通过中心极限定理,可以确保对于每次选取的样本,由如下方式计算出的统计量
服从标准正态分布
研究样本时,重要的不是各个样本具体是多少
重要的是在不同的样本选取下,样本统计量的分布情况
特别是需要关注分散的中心: 的情况
中心极限定理给出: 服从正态分布。所以在处理大量样本时,会自然地出现正态分布
尤其,统计理论研究中,几乎都会假设总体服从正态分布
在此基础上 也更为正确
而当总体不服从正态分布时,只要样本量足够大, 依然会趋近于此正态分布
但是实际应用问题中,样本平均的真实分布与正态分布会存在一定差异
请在时常知晓这个差异的前提下进行统计分析