以下记条件概率 P(AB)P(A \mid B)PB(A)P_B(A)

# 假设检验

在统计中,通过实际的统计计算对现实中的问题进行推断,称为检验。
简单来说,检验是指基于一系列数据,判断是否可以足以拒绝某个主张的流程

在统计检验的过程中,第一步是针对具体问题设定两个假设

  • 原假设 (Null Hypothesis)「帰無仮説」 H0H_0:通常是我们想要反驳的假设
  • 备择假设 (Alternative Hypothesis)「対立仮説」 H1H_1:通常是我们想要证明的假设

通常来说,原假设的形式是:【没有差别】,【没有效果】

  • 例如总体平均 μ=100\mu = 100

备择假设的形式是:【有差别】,【有效果】

  • 例如总体平均 μ100, μ<100, μ>100\mu \neq 100,\ \mu < 100,\ \mu > 100

例如,某饮料标称 500ml,抽样调查其样品数据后,想要检验是否可以认为该饮料容量确实为 500ml
则可以设定

  • 原假设 H0:μ=500H_0: \mu = 500
  • 备择假设 H1:μ500H_1: \mu \neq 500

统计检验的过程宏观上的原理为反证法

  • 假设原假设 H0H_0 为真
  • 计算某个 检验统计量 (Test Statistic)「検定統計量」 TT
  • 根据中心极限定理,可以得到统计检验量 TT 应该服从某个已知的分布
  • 取该分布中,概率 α\alpha 的极端区域 RαR_\alpha 作为 拒绝域 (Rejection Region)「棄却域」
    ,即:

PH0(TRα)=αP_{H_0}(T \in R_\alpha) = \alpha

  • 基于样本数据,计算出观测到的统计检验量 tobst_{\text{obs}}
  • 此时的逻辑是:“如果 H0H_0 是真的,那么观测到的统计量是不应该落在拒绝域内的”
    • 此时如果 tobsRαt_{\text{obs}} \in R_\alpha,也就是落在拒绝域,这等于在说 H0H_0 不为真,于是拒绝 H0H_0,接受 H1H_1
    • 而如果 tobsRαt_{\text{obs}} \notin R_\alpha,则无法拒绝 H0H_0(请注意我这里的用词是 “无法拒绝” 而不是 “接受”,这是因为逻辑上这并不是在说我们得到了 H0H_0 为真的结果,只是基于现有的数据,我们无法证伪 H0H_0

实际上,由于样本的选取是随机的,其可以反应大部分的总体性质但不能确保一定百分百反应总体性质,也就是说需要明确:统计检验存在错误概率

通常,在统计检验前,需要选取 显著性水平 (Significance Level)「有意水準」 α\alpha,其表示在原假设 H0H_0 为真的情况下,错误地拒绝 H0H_0 的概率
例如,α=0.05\alpha = 0.05 表示有 5% 的概率会错误地拒绝原假设 H0H_0
显著性水平也被称为危险率

原假设可能为真,也可能为假,统计检验的结论也存在拒绝与不拒绝两种可能
所以统计检验出错的情况也有两种,见下表

实际情况 \ 检验结论 拒绝 H0H_0 不拒绝 H0H_0
H0H_0 为真 第一类错误 (Type I Error) 正确结论
H0H_0 为假 正确结论 第二类错误 (Type II Error)

两类错误

  • 第一类错误 (Type I Error)「第一種の誤り」:在原假设为 的情况下,错误地 拒绝 了原假设 H0H_0
  • 第二类错误 (Type II Error)「第二種の誤り」:在原假设为 的情况下,错误地 不拒绝 了原假设 H0H_0

通常情况 下,第一类错误的概率为显著性水平 α\alpha
但是对于部分离散的分布,有可能会得到实际的第一类错误概率小于显著性水平 α\alpha 的情况
所以唯一能确定的是

P(第一类错误)αP(\text{第一类错误}) \leq \alpha

第二类错误的概率记作 β\beta,实际上 β\beta 通常难以计算
1β1 - \beta 为检验的 效能 (Power)「検出力」,表示在 H0H_0 为假的情况下,正确地拒绝 H0H_0 的概率

以下示例给出第一类错误概率不为显著性水平 α\alpha 的情况

示例
现有两种分布
分布 A:

X 1 2 3 4 5 6 7
P 0.15 0.25 0.2 0.15 0.1 0.1 0.05

分布 B:

X 1 2 3 4 5 6 7
P 0.05 0.1 0.15 0.2 0.2 0.2 0.1

设定

  • 原假设 H0H_0: 样本来自分布 A
  • 备择假设 H1H_1: 样本来自分布 B

拒绝域设为 X5X \geq 5,求第一类错误概率,第二类错误概率,检验效能
以及在显著性水平 α=0.07\alpha = 0.07 下,第一类错误概率

第一类错误概率

P(X5H0)=0.1+0.1+0.05=0.25P(X \geq 5 \mid H_0) = 0.1 + 0.1 + 0.05 = 0.25

第二类错误概率

P(X<5H1)=0.05+0.1+0.15+0.2=0.5P(X \lt 5 \mid H_1) = 0.05 + 0.1 + 0.15 + 0.2 = 0.5

检验效能

1β=10.5=0.51 - \beta = 1 - 0.5 = 0.5

接下来考虑显著性水平 α=0.07\alpha = 0.07 下的情况
此时由于

P(X6)=0.15>0.07,P(X7)=0.050.07P(X \geq 6) =0.15 \gt 0.07,\quad P(X \geq 7) = 0.05 \leq 0.07

所以拒绝域应设为 X7X \geq 7
此时第一类错误概率为

P(X7H0)=0.05<0.07P(X \geq 7 \mid H_0) = 0.05 \lt 0.07

在经过一系列计算后,往往可以得出检验的结果
检验结果基于显著性水平与假设,注意核心的流程是在于判断 是否要拒绝原假设
所以检验结论通常有两种形式

  • 在显著性水平 α\alpha 下,拒绝原假设 H0H_0,接受备择假设 H1H_1
  • 在显著性水平 α\alpha 下,无法拒绝原假设 H0H_0,无法接受备择假设 H1H_1

# 拒绝域的选取

针对给定的容错,也就是显著性水平 α\alpha
我们已经明确:拒绝域是 “统计量不应该落入的极端区域”。一旦统计量落入,我们就可以得出拒绝原假设的结论。

但是此时依据对立假说的形式,结论会有所不同。当对立假设为 H1:μμ0H_1: \mu \neq \mu_0 时,为了使得落入拒绝域等价于可以接受 H1H_1,拒绝域的设定应该是两侧对称的。

而当对立假说的形式类似为 H1:μ>μ0H_1: \mu \gt \mu_0 时,你会发现:即使统计量处于非常极端的,分布的左侧区域,但是此时我们也无法接受 H1H_1,因为 H1H_1 只关心右侧区域。这使得拒绝域的设定应该完全位于右侧

拒绝域的选取

也就是说,拒绝域的判断依赖于备择假设,存在两种情况,注意两种情况下原假设都一致 H0:μ=μ0H_0: \mu = \mu_0

  • 两侧检验 (Two-tailed Test)「両側検定」:备择假设形式为 H1:μμ0H_1: \mu \neq \mu_0,此时拒绝域为统计量 TT 落在两侧极端区域
  • 单侧检验 (One-tailed Test)「片側検定」:备择假设形式为 H1:μ>μ0H_1: \mu \gt \mu_0H1:μ<μ0H_1: \mu \lt \mu_0,此时拒绝域为统计量 TT 落在一侧极端区域

另外一种可行的方案是 pp 值法
pp 值法的核心在于,针对统计量 TT,计算出

p:=PH0(得到比观测值更极端的结果)p := P_{H_0}(\text{得到比观测值更极端的结果})

换言之,pp 值描绘了:该结果在 H0H_0 为真的情况下有多么难以发生,

pα    TRαp \leq \alpha \iff T \in R_\alpha

同时,pp 值也是 “拒绝所需的最小显著性水平”

  • 如果 pαp \leq \alpha,则拒绝原假设 H0H_0(结果显著)
  • 如果 p>αp \gt \alpha,则不拒绝原假设 H0H_0(结果不显著)

pp 值法的计算同样依赖于备择假设的形式,设 TN(0,1)T \sim N(0,1),观测值为 tobst_{\text{obs}},则

  • 对于两侧检验 H1:μμ0H_1: \mu \neq \mu_0,p 值计算为

p=PH0(Ttobs)=2PH0(Ttobs)p = P_{H_0}(|T| \geq |t_{\text{obs}}|) = 2P_{H_0}(T \geq |t_{\text{obs}}|)

  • 对于右单侧检验 H1:μ>μ0H_1: \mu \gt \mu_0,p 值计算为

p=PH0(Ttobs)p = P_{H_0}(T \geq t_{\text{obs}})

  • 对于左单侧检验 H1:μ<μ0H_1: \mu \lt \mu_0,p 值计算为

p=PH0(Ttobs)p = P_{H_0}(T \leq t_{\text{obs}})

Excel 中的计算

Excel 中存在函数 NORMDIST(|Z|,0,1,TRUE) 用于计算标准正态分布的累积分布函数,即返回 P(TZ)P(T \leq |Z|)
那么 1 - NORMDIST(|Z|,0,1,TRUE) 则返回 P(TZ)P(T \geq |Z|)
由此也可以得到两侧检验中的 pp 值计算公式: 2 * (1 - NORMDIST(|Z|,0,1,TRUE))

# 常见统计检验

本节给出各类常见的统计检验示例
总结:

  • 涉及到总体均值的检验:
    • 已知总体方差时,使用正态分布
    • 未知总体方差时,使用 t 分布
  • 涉及到总体方差的检验,使用 χ2\chi^2 分布
  • 涉及到总体比例的检验,使用正态分布

# 总体均值检验

例题 已知总体方差的总体均值两侧检验
某饮料标称 500ml,现取 36 瓶测得平均容量为 498.5ml
已知总体方差为 9ml29ml^2
问在显著性水平 0.05 下,能否说该饮料容量确实如标称的 500ml?

设定参量
样本量 n=36n = 36
样本平均 X=498.5\overline X = 498.5
总体方差 σ2=9\sigma^2 = 9
宣称平均 μ0=500\mu_0 = 500
显著性水平 α=0.05\alpha = 0.05 (两侧)
原假设 H0:μ=500H_0: \mu = 500
备择假设 H1:μ500H_1: \mu \neq 500
计算检验统计量

Z=Xμ0σ/n=498.55003/6=3Z = \frac{\overline X - \mu_0}{\sigma/\sqrt{n}} = \frac{498.5 - 500}{3/6} = -3

α=0.05\alpha = 0.05 下,z(α/2)=1.960z(\alpha/2) = 1.960
由于 Z=3>1.960|Z| = 3 > 1.960,落在拒绝域内
所以拒绝原假设 H0H_0,接受备择假设 H1H_1
结论:在显著性水平 0.05 下,能说该饮料容量确实不如标称的 500ml

例题 已知总体方差的总体均值单侧检验
某饮料标称 500ml,现取 36 瓶测得平均容量为 498.5ml
已知总体方差为 9ml29ml^2
问在显著性水平 0.05 下,能否说该饮料容量确实大于 500ml?

设定参量
样本量 n=36n = 36
样本平均 X=498.5\overline X = 498.5
总体方差 σ2=9\sigma^2 = 9
宣称平均 μ0=500\mu_0 = 500
显著性水平 α=0.05\alpha = 0.05 (单侧)
原假设 H0:μ500H_0: \mu \leq 500
备择假设 H1:μ>500H_1: \mu > 500
计算检验统计量

Z=Xμ0σ/n=498.55003/6=3Z = \frac{\overline X - \mu_0}{\sigma/\sqrt{n}} = \frac{498.5 - 500}{3/6} = -3

α=0.05\alpha = 0.05 下,z(α)=1.645z(\alpha) = 1.645
由于 Z=3<1.645Z = -3 < 1.645,不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该饮料容量确实大于 500ml

例题 未知总体方差的总体均值检验
随机抽取某碳酸饮料 12 瓶,测得其砂糖含量(单位 g/L)如下

9.6,10.1,10.4,9.8,11.2,10.5,9.9,10.3,10.7,9.5,10.0,10.69.6, 10.1, 10.4, 9.8, 11.2, 10.5, 9.9, 10.3, 10.7, 9.5, 10.0, 10.6

问在显著性水平 0.05 下,能否说该碳酸饮料的砂糖含量确实如标称的 10 g/L?

设定参量

  • 样本量 n=12n = 12
  • 样本平均 X=10.2167\overline X = 10.2167
  • 宣称平均 μ0=10\mu_0 = 10
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:μ=10H_0: \mu = 10
  • 备择假设 H1:μ10H_1: \mu \neq 10

计算样本无偏方差

S2=1n1i=112(XiX)2=0.245S^2 = \frac{1}{n-1} \sum_{i=1}^{12} (X_i - \overline X)^2 = 0.245

计算检验统计量

T=Xμ0S/n=10.2167100.245/121.52T = \frac{\overline X - \mu_0}{S/\sqrt{n}} = \frac{10.2167 - 10}{\sqrt{0.245}/\sqrt{12}} \approx 1.52

α=0.05\alpha = 0.05 下,查 t 分布表可得

t11(0.025)=2.201t_{11}(0.025) = 2.201

由于 T1.52<2.201|T| \approx 1.52 < 2.201,不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该碳酸饮料的砂糖含量确实如标称的 10 g/L

# 总体方差检验

例题 已知总体平均的总体方差检验
某产品的重量服从正态分布,总体平均已知为 50g
现随机抽取 25 件产品,测得差值平方和

Q=i=125(Xi50)2=720Q = \sum_{i=1}^{25} (X_i - 50)^2 = 720

问在显著性水平 0.05 下,能否说该产品的重量方差不同于 25g225 g^2

设定参量

  • 样本量 n=25n = 25
  • 差值平方和 Q=720Q = 720
  • 宣称方差 σ02=25\sigma_0^2 = 25
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:σ2=25H_0: \sigma^2 = 25
  • 备择假设 H1:σ225H_1: \sigma^2 \neq 25

计算检验统计量

χ2=Qσ02=72025=28.8\chi^2 = \frac{Q}{\sigma_0^2} = \frac{720}{25} = 28.8

自由度 2525
α=0.05\alpha = 0.05 下,查卡方分布表可得

χ252(0.025)=13.1,χ252(0.975)=40.7\chi^2_{25}(0.025) = 13.1,\quad \chi^2_{25}(0.975) = 40.7

由于 χ2=28.8\chi^2 = 28.8 不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该产品的重量方差不同于 25g225 g^2

例题 未知总体平均的总体方差检验
随机抽取某饮料 10 瓶,测得咖啡因浓度(单位 mg/L)如下

58,63,61,60,59,62,57,64,60,6158, 63, 61, 60, 59, 62, 57, 64, 60, 61

问在显著性水平 0.05 下,能否说该饮料的咖啡因浓度方差不同于 9(mg/L)29 (mg/L)^2

设定参量

  • 样本量 n=10n = 10
  • 样本数据 58,63,61,60,59,62,57,64,60,6158, 63, 61, 60, 59, 62, 57, 64, 60, 61
  • 宣称方差 σ02=9\sigma_0^2 = 9
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:σ2=9H_0: \sigma^2 = 9
  • 备择假设 H1:σ29H_1: \sigma^2 \neq 9

计算样本均值

X=58+63+61+60+59+62+57+64+60+6110=60.5\overline X = \frac{58 + 63 + 61 + 60 + 59 + 62 + 57 + 64 + 60 + 61}{10} = 60.5

计算平方和

Q=i=110(XiX)2=(5860.5)2+(6360.5)2++(6160.5)2=42.5Q = \sum_{i=1}^{10} (X_i - \overline X)^2 = (58 - 60.5)^2 + (63 - 60.5)^2 + \cdots + (61 - 60.5)^2 = 42.5

计算卡方统计量

χ2=Qσ02=42.594.7222\chi^2 = \frac{Q}{\sigma_0^2} = \frac{42.5}{9} \approx 4.7222

自由度 101=910 - 1 = 9
α=0.05\alpha = 0.05 下,查卡方分布表可得

χ92(0.025)=2.7,χ92(0.975)=19.0\chi^2_{9}(0.025) = 2.7,\quad \chi^2_{9}(0.975) = 19.0

由于 χ2=4.7222\chi^2 = 4.7222 不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该饮料的咖啡因浓度方差不同于 9(mg/L)29 (mg/L)^2

# 总体比例检验

例题 已知总体方差的总体比例单侧检验
某工厂生产的产品不合格率宣称为 22%
现随机抽取 400 件产品,发现其中有 14 件不合格
问在显著性水平 0.05 下,能否说该工厂生产的产品不合格率确实大于 22%

设定参量

  • 样本量 n=400n = 400
  • 样本不合格数 X=14X = 14
  • 样本比例 p^=Xn=14400=0.035\hat p = \frac{X}{n} = \frac{14}{400} = 0.035
  • 宣称比例 p0=0.02p_0 = 0.02
  • 显著性水平 α=0.05\alpha = 0.05 (单侧)

假设

  • 原假设 H0:p=0.02H_0: p = 0.02
  • 备择假设 H1:p>0.02H_1: p > 0.02

计算检验统计量

Z=p^p0p0(1p0)n=0.0350.020.02×0.984002.143Z = \dfrac{\hat p - p_0}{\sqrt{\dfrac{p_0 (1 - p_0)}{n}}} = \dfrac{0.035 - 0.02}{\sqrt{\dfrac{0.02 \times 0.98}{400}}} \approx 2.143

α=0.05\alpha = 0.05 下,z(α)=1.645z(\alpha) = 1.645
由于 Z2.143>1.645Z \approx 2.143 > 1.645,落在拒绝域内
所以拒绝原假设 H0H_0,接受备择假设 H1H_1
结论:在显著性水平 0.05 下,能说该工厂生产的产品不合格率确实大于 22%

# 两样本问题:总体均值差值检验

例题 已知总体方差的总体均值差值检验
某饮料同时由 A,B 两家工厂生产,两家工厂生产的标准差均为 3ml3ml
现从 A 工厂随机抽取 36 瓶,测得平均容量为 498.5ml
从 B 工厂随机抽取 36 瓶,测得平均容量为 500.4ml
问在显著性水平 0.05 下,能否说两家工厂生产的饮料容量存在差异?

设定参量

  • 样本量 n1=36n_1 = 36n2=36n_2 = 36
  • 样本平均 X=498.5\overline X = 498.5Y=500.4\overline Y = 500.4
  • 总体方差 σ12=9\sigma_1^2 = 9σ22=9\sigma_2^2 = 9
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:μ1=μ2H_0: \mu_1 = \mu_2
  • 备择假设 H1:μ1μ2H_1: \mu_1 \neq \mu_2

计算检验统计量

Z=(XY)0σ12n1+σ22n2=(498.5500.4)0936+936=2.69Z = \frac{(\overline X - \overline Y) - 0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} = \frac{(498.5 - 500.4) - 0}{\sqrt{\frac{9}{36} + \frac{9}{36}}} = -2.69

α=0.05\alpha = 0.05 下,z(α/2)=1.960z(\alpha/2) = 1.960
由于 Z=2.69>1.960|Z| = 2.69 > 1.960,落在拒绝域内
所以拒绝原假设 H0H_0,接受备择假设 H1H_1
结论:在显著性水平 0.05 下,能说两家工厂生产的饮料容量存在差异

例题 等方差下的总体均值差值检验
某药品分别由传统方法 B 与新方法 A 生产
现从 A 方法中随机抽取 10 件样品,测得其有效成分含量(单位 mg)如下

100.8,100.5,100.6,100.7,100.4,100.2,100.5,100.6,100.3,100.8100.8, 100.5, 100.6, 100.7, 100.4, 100.2, 100.5, 100.6, 100.3, 100.8

从 B 方法中随机抽取 10 件样品,测得其有效成分含量(单位 mg)如下

99.6,99.8,99.7,99.9,100.0,99.5,99.7,99.8,99.6,99.899.6, 99.8, 99.7, 99.9, 100.0, 99.5, 99.7, 99.8, 99.6, 99.8

问在显著性水平 0.05 下,能否说两种方法生产的药品有效成分含量存在差异?

设定参量

  • 样本量 n1=10n_1 = 10n2=10n_2 = 10
  • 样本平均 X=100.54\overline X = 100.54Y=99.74\overline Y = 99.74
  • 样本方差 S12=0.0404S_1^2 = 0.0404S22=0.0227S_2^2 = 0.0227
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:μ1=μ2H_0: \mu_1 = \mu_2
  • 备择假设 H1:μ1μ2H_1: \mu_1 \neq \mu_2

计算合并方差

Sp2=(n11)S12+(n21)S22n1+n22=9×0.0404+9×0.022718=0.03156S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} = \frac{9 \times 0.0404 + 9 \times 0.0227}{18} = 0.03156

计算检验统计量

T=(XY)0Sp1n1+1n2=(100.5499.74)00.03156110+11010.07T = \frac{(\overline X - \overline Y) - 0}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} = \frac{(100.54 - 99.74) - 0}{\sqrt{0.03156} \sqrt{\frac{1}{10} + \frac{1}{10}}} \approx 10.07

自由度 n1+n22=18n_1 + n_2 - 2 = 18
α=0.05\alpha = 0.05 下,查 t 分布表可得

t18(0.025)=2.101t_{18}(0.025) = 2.101

由于 T10.07>2.101|T| \approx 10.07 > 2.101,落在拒绝域内
所以拒绝原假设 H0H_0,接受备择假设 H1H_1
结论:在显著性水平 0.05 下,能说两种方法生产的药品有效成分含量存在差异

# 两样本问题:总体比例差值检验

# 适合度检验与独立性检验

相较于前面对于统计量计算的检验,适合度检验与独立性检验更多地用于分类数据

适合度检验是给出一个具体的分布,通过统计检验判断样本数据是否服从该分布
独立性检验是给出两个分类变量,通过统计检验判断这两个变量是否独立

命题
对于任意 k2k \geq 2 与变量 y1,y2,,yky_1, y_2, \dots, y_k

(y1+y2++yk)2=r1+r2++rk=nn!r1!r2!rk!y1r1y2r2ykrk(y_1 + y_2 + \cdots + y_k)^2 = \sum_{r_1 + r_2 + \cdots + r_k = n} \frac{n!}{r_1! r_2! \cdots r_k!} y_1^{r_1} y_2^{r_2} \cdots y_k^{r_k}

例题 适合度检验
有某理论宣传血型分布为

p(0)=(A:0.4, B:0.3, AB:0.2, O:0.1)p^{(0)} = (A: 0.4,\ B: 0.3,\ AB: 0.2,\ O: 0.1)

现随机抽取 150 人,测得血型分布为

血型 A B AB O 总计
人数 64 41 33 12 150

问在显著性水平 0.05 下,能否说该样本数据服从上述血型分布?

设定参量

  • 样本量 n=150n = 150
  • 样本数据见上表
  • 宣称分布 p(0)=(0.4,0.3,0.2,0.1)p^{(0)} = (0.4, 0.3, 0.2, 0.1)
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0H_0: 该样本数据服从上述血型分布
  • 备择假设 H1H_1: 该样本数据不服从上述血型分布

计算期望频数

血型 A B AB O 总计
期望频数 60 45 30 15 150

计算检验统计量

χ2=(OiEi)2Ei=1.63\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} = 1.63

自由度 k1=41=3k - 1 = 4 - 1 = 3
α=0.05\alpha = 0.05 下,查卡方分布表可得

χ32(0.95)=7.815\chi^2_{3}(0.95) = 7.815

由于 χ2=1.63\chi^2 = 1.63 不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该样本数据不服从上述血型分布

例题 独立性检验
通过对 206 名大学生抽样调查 【性别】 与 【喜欢的季节】 之间的关系,得到如下数据

性别 \ 季节 总计
20 32 24 28 104
28 34 20 20 102
总计 48 66 44 48 206

问在显著性水平 0.05 下,能否说【性别】 与 【喜欢的季节】 存在关联?

设定参量

  • 样本量 n=206n = 206
  • 样本数据见上表
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0H_0: 【性别】 与 【喜欢的季节】 独立
  • 备择假设 H1H_1: 【性别】 与 【喜欢的季节】 不独立

计算期望频数 E_{ij} = \frac{\text{行和}_i \times \text{列和}_j}

性别 \ 季节
24.23 33.32 22.21 24.23
23.77 32.68 21.79 23.77

计算检验统计量

χ2=(OiEi)2Ei3.08\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \approx 3.08

自由度 (r1)(c1)=(21)(41)=3(r-1)(c-1) = (2-1)(4-1) = 3
α=0.05\alpha = 0.05 下,查卡方分布表可得

χ32(0.95)=7.815\chi^2_{3}(0.95) = 7.815

由于 χ23.08\chi^2 \approx 3.08 不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说【性别】 与 【喜欢的季节】 存在关联

# 检验效能

固定显著性水平 α\alpha
考虑:究竟哪一种检验可以使得第二类错误概率 β\beta 最小化

先来关注针对 z 检验的这样的例子
给定显著性水平 α\alpha,以及 nn 个服从正态分布 N(μ,σ2)N(\mu, \sigma^2) 的样本

  • 原假设 H0:μ=μ0H_0: \mu = \mu_0
  • 备择假设 H1:μμ0H_1: \mu \neq \mu_0

计算出统计量

Z=Xμ0σ/nN(0,1)Z = \frac{\overline X - \mu_0}{\sigma/\sqrt{n}} \sim N(0,1)

现在可以知道,如果原假设 H0H_0 成立,那么

ZN(0,1)Z \sim N(0,1)

如果备择假设 H1H_1 成立,那么由于 XN(μ,σ2/n)\overline X \sim N(\mu', \sigma^2/n),其中 μ\mu' 为真实的总体平均,那么

ZN(δ,1),δ=μμ0σ/nZ \sim N\left(\delta, 1\right),\quad \delta = \frac{\mu' - \mu_0}{\sigma/\sqrt{n}}

那么,可以分别算出第一,第二类的错误概率

P(第一类错误)=P(拒绝 H0H0 成立)=P(Zz(α)ZN(0,1))=α\begin{aligned} P(\text{第一类错误}) &= P(\text{拒绝 } H_0 \mid H_0 \text{ 成立}) \\ &= P(|Z| \geq z(\alpha) \mid Z \sim N(0,1)) \\ &= \alpha \end{aligned}

β(μ):=P(第二类错误)=P(不拒绝 H0H1 成立)=P(z(α)Zz(α)ZN(δ,1))=z(α)z(α)12πexp((zδ)22)dz=z(α)δz(α)δ12πexp(u22)du\begin{aligned} \beta(\mu) := P(\text{第二类错误}) &= P(\text{不拒绝 } H_0 \mid H_1 \text{ 成立}) \\ &= P(-z(\alpha) \leq Z \leq z(\alpha) \mid Z \sim N(\delta,1)) \\ &= \int_{-z(\alpha)}^{z(\alpha)} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{(z - \delta)^2}{2}\right) dz \\ &= \int_{-z(\alpha) - \delta}^{z(\alpha) - \delta} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{u^2}{2}\right) du \end{aligned}

检验效能

π(μ)=1β(μ)=zz(α)δ12πexp(z22)dz\pi(\mu) = 1 - \beta(\mu) = \int_{|z| \geq z(\alpha) - \delta} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{z^2}{2}\right) dz

可以看出,如果缩小显著性水平 α\alpha,则 z(α)z(\alpha) 会增大,从而使得区间

[z(α)δ, z(α)δ][-z(\alpha) - \delta,\ z(\alpha) - \delta]

变大,那么结果上

第二类错误概率 β(μ),检验效能 π(μ)\text{第二类错误概率 } \beta(\mu) \uparrow,\quad \text{检验效能 } \pi(\mu) \downarrow

简单来说,减小显著性水平 α\alpha 会导致第二类错误概率增大,检验效能降低

同样可以得到,如果增大样本量 nn

第二类错误概率 β(μ),检验效能 π(μ)\text{第二类错误概率 } \beta(\mu) \downarrow,\quad \text{检验效能 } \pi(\mu) \uparrow

如果增加宣称平均 μ0\mu_0 与真实平均 μ\mu' 之间的差距 μμ0|\mu' - \mu_0|

第二类错误概率 β(μ),检验效能 π(μ)\text{第二类错误概率 } \beta(\mu) \downarrow,\quad \text{检验效能 } \pi(\mu) \uparrow

内容已经过 Gemini 3.0 Pro 审查