# 一元方差分析 ANOVA
对于多个总体数据,有时需要考察它们的均值是否存在显著差异
例如,比较不同教学方法对学生成绩的影响,或者不同药物对患者康复的效果
方差分析 (Analysis of Variance, ANOVA) 是一种用于比较多个样本均值是否存在显著差异的统计方法
其基本思想是将总变异分解为组间变异和组内变异两部分,通过比较这两部分的变异来判断组均值是否存在显著差异
考虑 k 个正态总体,总体方差可以未知,此处假设相等,即 Πi:N(μi,σ2)
设置原假设
H0:μ1=μ2=⋯=μk
即,问题为 考察各总体均值是否相等
从 k 个总体中各自取 ni 个样本
Xi1,Xi2,…,Xini,i=1,2,…,k
第一个下标指示总体编号,第二个下标指示样本编号
那么对于各个总体,有
σ21j=1∑ni(Xij−Xi)2∼χni−12
其中 Xi=ni1j=1∑niXij 为第 i 个样本的样本平均
利用 χ2 分布的可加性,有
σ21i=1∑kj=1∑ni(Xij−Xi)2∼χ(i=1∑k(ni−1))2=χn−k2
其中 n=i=1∑kni 为总样本量
现在,如果原假设 H0 成立,那么各样本来自同一总体(均值和方差都相等)
所以可以将样本视作从 N(μ,σ2) 中抽取的,数量为 n=i=1∑kni 的样本
同样可以制作服从 χ2 分布的统计量
σ21i=1∑kj=1∑ni(Xij−X)2∼χn−12
其中 X=n1i=1∑kj=1∑niXij 为所有样本的总体平均
为了实际分析各组数据分散情况,定义三组平方和
- 组间变异平方和 (Sum of Squares Between, SSB)「級間変動」
- 组内变异平方和 (Sum of Squares Within, SSW)「級内変動」
- 总变异平方和 (Total Sum of Squares, TSS)「全変動」
令 si 为第 i 组样本的标准差
S1=SSB=i=1∑kni(Xi−X)2
S2=SSW=i=1∑k(ni−1)si2=i=1∑kj=1∑ni(Xij−Xi)2
S=TSS=i=1∑kj=1∑ni(Xij−X)2
此时容易证明以下等式
S=S1+S2
由于第 i 组样本的组内数据差异 Xij−Xi 独立于其平均 Xi
并且 Xi 实际上是 Xij 的函数
所以可以进一步得到与总平均的独立性,即 Xij−Xi 独立于 X
因此 S1 与 S2 独立,考虑等式
σ2S=σ2S1+σ2S2
此时
- 等式左侧服从 χn−12 分布
- 等式右侧互相独立,第二项服从 χn−k2 分布
那么,右侧第一项必然服从 χk−12 分布
因此,可以构造服从 F 分布的统计量
F=S2/(n−k)σ2S1/(k−1)σ2=S2(k−1)S1(n−k)∼Fk−1,n−k
推导基于假设:原假设 H0 成立,即各总体均值相等
所以 F 统计量可以用于检验该假设
根据 F 分布的性质,可以通过查表得到临界值 Fk−1,n−k(α)
如果计算得到的 F 统计量大于该临界值,则拒绝原假设 H0,认为各总体均值存在显著差异
否则,不拒绝原假设 H0,认为各总体均值无显著差异
实际上,如果原假设 H0 不成立,那么组间变异 S1 显著增大的情况下,组内变异 S2 相对较小
因此 F 统计量会显著增大,从而更容易超过临界值,导致拒绝原假设 H0
由 F 分布的统计量来判断是否拒绝原假设 H0 是合理的做法
在危险度 α 下
- 若 F>Fk−1,n−k(α),则拒绝原假设 H0,认为各总体均值存在显著差异
- 若 F≤Fk−1,n−k(α),则不拒绝原假设 H0,认为各总体均值无显著差异
例题
某化学药品同时由 4 家不同厂家生产,对其药物成分纯度进行测定,得到以下数据(单位:百分比)
| 第一厂家 | 第二厂家 | 第三厂家 | 第四厂家 |
|---|
| 样本数量 ni | 17 | 15 | 14 | 18 |
| 样本平均 Xi | 18.0 | 18.5 | 17.9 | 18.3 |
| 样本标准差 si2 | (0.83)2 | (0.75)2 | (1.00)2 | (0.95)2 |
在危险度 0.05 和 0.01 下,能否认为各厂家生产的药品纯度存在显著差异?
解
总样本量 n=17+15+14+18=64
总平均 X=6417×18.0+15×18.5+14×17.9+18×18.3=18.1796875
组间变异平方和 SSB
S1=17(18.0−18.1796875)2+15(18.5−18.1796875)2+14(17.9−18.1796875)2+18(18.3−18.1796875)2=3.44359375
SSB 的自由度 k−1=4−1=3
组内变异平方和 SSW
S2=(17−1)(0.83)2+(15−1)(0.75)2+(14−1)(1.00)2+(18−1)(0.95)2=47.2399
SSW 的自由度 n−k=64−4=60
计算 F 统计量
F=S2/(n−k)S1/(k−1)=47.2399/603.44359375/3=1.45791746∼F3,60
查询临界值
- 在危险度 0.05 下,F3,60(0.05)=2.758
- 在危险度 0.01 下,F3,60(0.01)=4.126
由于 F=1.45791746 均小于上述两个临界值
所以在危险度 0.05 和 0.01 下均不拒绝原假设 H0
结论:在危险度 0.05 和 0.01 下,不能认为各厂家生产的药品纯度存在显著差异