# 假设检验

在统计中,通过实际的统计计算对现实中的问题进行推断,称为检验
例如抽样调查一个工厂生产的一百个产品,利用统计可以给出结论判断是否可以认为该工厂的生产质量总体达标

在统计检验的过程中,第一步是针对具体问题设定两个假设

  • 原假设 (Null Hypothesis)「帰無仮説」 H0H_0:通常是我们想要反驳的假设
  • 备择假设 (Alternative Hypothesis)「対立仮説」 H1H_1:通常是我们想要证明的假设

通常来说,原假设的形式是:【没有差别】,【没有效果】
例如总体平均 μ=100\mu = 100
备择假设的形式是:【有差别】,【有效果】
例如总体平均 μ100,μ<100,μ>100\mu \neq 100,\ \mu < 100,\ \mu > 100

例如,某饮料标称 500ml,抽样调查其样品数据后,想要检验是否可以认为该饮料容量确实为 500ml
则可以设定

  • 原假设 H0:μ=500H_0: \mu = 500
  • 备择假设 H1:μ500H_1: \mu \neq 500

此时统计检验的过程宏观上为:是否可以反驳原假设

实际上,由于标本的选取是随机的,其可以反应大部分的总体性质但不能确保一定百分百反应总体性质,也就是说需要明确:统计检验存在错误概率

通常,在统计检验前,需要选取一个 显著性水平 (Significance Level)「有意水準」 α\alpha,其表示在原假设 H0H_0 为真的情况下,错误地拒绝 H0H_0 的概率
例如,α=0.05\alpha = 0.05 表示有 5% 的概率会错误地拒绝原假设 H0H_0
显著性水平也被称为危险率

原假设可能为真,也可能为假,统计检验的结论也存在拒绝与不拒绝两种可能
所以统计检验出错的情况也有两种,见下表

实际情况 \ 检验结论拒绝 H0H_0不拒绝 H0H_0
H0H_0 为真第一类错误 (Type I Error)正确结论
H0H_0 为假正确结论第二类错误 (Type II Error)

显然具有两类错误

  • 第一类错误 (Type I Error)「第一種の誤り」:在原假设为 的情况下,错误地 拒绝 了原假设 H0H_0
  • 第二类错误 (Type II Error)「第二種の誤り」:在原假设为 的情况下,错误地 不拒绝 了原假设 H0H_0

通常情况 下,第一类错误的概率为显著性水平 α\alpha
但是对于部分离散的分布,有可能会得到实际的第一类错误概率小于显著性水平 α\alpha 的情况
所以唯一能确定的是 P(第一类错误)αP(\text{第一类错误}) \leq \alpha

第二类错误的概率通常记作 β\beta
实际上 β\beta 通常难以计算
1β1 - \beta 为检验的 效能 (Power)「検出力」,表示在 H0H_0 为假的情况下,正确地拒绝 H0H_0 的概率

以下示例给出第一类错误概率不为显著性水平 α\alpha 的情况

示例
现有两种分布
分布 A:

X1234567
P0.150.250.20.150.10.10.05

分布 B:

X1234567
P0.050.10.150.20.20.20.1

设定

  • 原假设 H0H_0: 样本来自分布 A
  • 备择假设 H1H_1: 样本来自分布 B

拒绝域设为 X5X \geq 5,求第一类错误概率,第二类错误概率,检验效能
以及在显著性水平 α=0.07\alpha = 0.07 下,第一类错误概率

第一类错误概率

P(X5H0)=0.1+0.1+0.05=0.25P(X \geq 5 \mid H_0) = 0.1 + 0.1 + 0.05 = 0.25

第二类错误概率

P(X<5H1)=0.05+0.1+0.15+0.2=0.5P(X \lt 5 \mid H_1) = 0.05 + 0.1 + 0.15 + 0.2 = 0.5

检验效能

1β=10.5=0.51 - \beta = 1 - 0.5 = 0.5

接下来考虑显著性水平 α=0.07\alpha = 0.07 下的情况
此时由于

P(X6)=0.15>0.07,P(X7)=0.050.07P(X \geq 6) =0.15 \gt 0.07,\quad P(X \geq 7) = 0.05 \leq 0.07

所以拒绝域应设为 X7X \geq 7
此时第一类错误概率为

P(X7H0)=0.05<0.07P(X \geq 7 \mid H_0) = 0.05 \lt 0.07

在经过一系列计算后,往往可以得出检验的结果
检验结果基于显著性水平与假设,注意核心的流程是在于判断 是否要拒绝原假设
所以检验结论通常有两种形式

  • 在显著性水平 α\alpha 下,拒绝原假设 H0H_0,接受备择假设 H1H_1
  • 在显著性水平 α\alpha 下,不拒绝原假设 H0H_0,无法接受备择假设 H1H_1

# 检验计算

综上,统计检验的流程大概可以被概括为

  • 选取显著性水平 α\alpha
  • 设定原假设与备择假设
  • 统计计算
  • 得出结论

该部分讲解统计计算的方针
一般来说,统计检验计算分为两个方向

  • 临界值法
  • p 值法

# 临界值法

临界值法的核心在于构造一个服从已知分布的统计量
通过对样本的统计数据进行一系列计算,可以得到数个样本统计量,例如样本平均 X\overline X,样本方差 S2S^2
基于这些统计量以及具体需要检验的问题,需要选取一个好的检验方法(见后文),并计算其对应的 检验统计量 (Test Statistic)「検定統計量」 TT
例如在 t 检验中,需要基于样本数据计算出一个服从 t 分布的统计量 TT

基于中心极限定理,即使样本的选取是随机的,但是通过统计检验量也可以判断该统计量落在正确区间的概率
也就是说,假定原假设 H0H_0 成立的情况下,抽样分布可以告诉我们在显著性水平 α\alpha 下,检验统计量 TT 应该会落在哪个区间
而如果实际计算得到的统计量 TT 落在该区间之外,那么就说明在原假设 H0H_0 成立的情况下,得到这样的统计量 TT 的概率非常小,也就可以说在该显著性水平下拒绝原假设 H0H_0
这个 “区间之外 “称为 拒绝域 (Rejection Region)「棄却域」

实际上,拒绝域的判断依赖于备择假设的形式,即存在两种情况

  • 两侧检验 (Two-tailed Test)「両側検定」:备择假设形式为 H1:μμ0H_1: \mu \neq \mu_0,此时拒绝域为统计量 TT 落在两侧极端区域
  • 单侧检验 (One-tailed Test)「片側検定」:备择假设形式为 H1:μ>μ0H_1: \mu \gt \mu_0H1:μ<μ0H_1: \mu \lt \mu_0,此时拒绝域为统计量 TT 落在一侧极端区域

换言之,即使在相同的显著性水平下,单侧检验和两侧检验的拒绝域也是不同的,这会导致得出的结论不同

# p 值法

p 值法的核心在于计算出一个检验统计量 TT 后,基于该统计量计算出一个概率值 pp
该概率值 pp 表示在原假设 H0H_0 成立的情况下,得到与实际计算的统计量 TT 同样极端或更极端的结果的概率
然后将该概率值 pp 与显著性水平 α\alpha 进行比较

  • 如果 pαp \leq \alpha,则拒绝原假设 H0H_0
  • 如果 p>αp \gt \alpha,则不拒绝原假设 H0H_0

p 值法的计算同样依赖于备择假设的形式

  • 对于两侧检验 H1:μμ0H_1: \mu \neq \mu_0,p 值计算为

p=2P(TtobsH0)p = 2P(T \geq |t_{\text{obs}}| \mid H_0)

  • 对于单侧检验 H1:μ>μ0H_1: \mu \gt \mu_0,p 值计算为

p=P(TtobsH0)p = P(T \geq t_{\text{obs}} \mid H_0)

# 常用检验方法

总览

  • 已知总体方差检验总体平均:z 检验
  • 未知总体方差检验总体平均:t 检验

本节给出各类检验问题的与具体计算方法的示例

# z 检验

z 检验的核心在于计算出服从标准正态分布 N(0,1)N(0,1) 的统计量 ZZ
在总体方差已知的情况下,对于总体平均,平均的差值,比值等问题均可以使用 z 检验
该检验都要求总体方差已知

例题 已知总体方差的总体均值两侧检验
某饮料标称 500ml,现取 36 瓶测得平均容量为 498.5ml
已知总体方差为 9ml29ml^2
问在显著性水平 0.05 下,能否说该饮料容量确实如标称的 500ml?

设定参量
标本量 n=36n = 36
标本平均 X=498.5\overline X = 498.5
总体方差 σ2=9\sigma^2 = 9
宣称平均 μ0=500\mu_0 = 500
显著性水平 α=0.05\alpha = 0.05 (两侧)
原假设 H0:μ=500H_0: \mu = 500
备择假设 H1:μ500H_1: \mu \neq 500
计算检验统计量

Z=Xμ0σ/n=498.55003/6=3Z = \frac{\overline X - \mu_0}{\sigma/\sqrt{n}} = \frac{498.5 - 500}{3/6} = -3

α=0.05\alpha = 0.05 下,z(α/2)=1.960z(\alpha/2) = 1.960
由于 Z=3>1.960|Z| = 3 > 1.960,落在拒绝域内
所以拒绝原假设 H0H_0,接受备择假设 H1H_1
结论:在显著性水平 0.05 下,能说该饮料容量确实不如标称的 500ml

例题 已知总体方差的总体均值单侧检验
某饮料标称 500ml,现取 36 瓶测得平均容量为 498.5ml
已知总体方差为 9ml29ml^2
问在显著性水平 0.05 下,能否说该饮料容量确实大于 500ml?

设定参量
标本量 n=36n = 36
标本平均 X=498.5\overline X = 498.5
总体方差 σ2=9\sigma^2 = 9
宣称平均 μ0=500\mu_0 = 500
显著性水平 α=0.05\alpha = 0.05 (单侧)
原假设 H0:μ500H_0: \mu \leq 500
备择假设 H1:μ>500H_1: \mu > 500
计算检验统计量

Z=Xμ0σ/n=498.55003/6=3Z = \frac{\overline X - \mu_0}{\sigma/\sqrt{n}} = \frac{498.5 - 500}{3/6} = -3

α=0.05\alpha = 0.05 下,z(α)=1.645z(\alpha) = 1.645
由于 Z=3<1.645Z = -3 < 1.645,不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该饮料容量确实大于 500ml

例题 已知总体方差的总体比例单侧检验
某工厂生产的产品不合格率宣称为 22%
现随机抽取 400 件产品,发现其中有 14 件不合格
问在显著性水平 0.05 下,能否说该工厂生产的产品不合格率确实大于 22%

设定参量

  • 标本量 n=400n = 400
  • 标本不合格数 X=14X = 14
  • 标本比例 p^=Xn=14400=0.035\hat p = \frac{X}{n} = \frac{14}{400} = 0.035
  • 宣称比例 p0=0.02p_0 = 0.02
  • 显著性水平 α=0.05\alpha = 0.05 (单侧)

假设

  • 原假设 H0:p0.02H_0: p \leq 0.02
  • 备择假设 H1:p>0.02H_1: p > 0.02

计算检验统计量

Z=p^p0p0(1p0)n=0.0350.020.02×0.984002.143Z = \dfrac{\hat p - p_0}{\sqrt{\dfrac{p_0 (1 - p_0)}{n}}} = \dfrac{0.035 - 0.02}{\sqrt{\dfrac{0.02 \times 0.98}{400}}} \approx 2.143

α=0.05\alpha = 0.05 下,z(α)=1.645z(\alpha) = 1.645
由于 Z2.143>1.645Z \approx 2.143 > 1.645,落在拒绝域内
所以拒绝原假设 H0H_0,接受备择假设 H1H_1
结论:在显著性水平 0.05 下,能说该工厂生产的产品不合格率确实大于 22%

例题 已知总体方差的总体平均差值检验
某饮料同时由 A,B 两家工厂生产,两家工厂生产的标准差均为 3ml3ml
现从 A 工厂随机抽取 36 瓶,测得平均容量为 498.5ml
从 B 工厂随机抽取 36 瓶,测得平均容量为 500.4ml
问在显著性水平 0.05 下,能否说两家工厂生产的饮料容量存在差异?

设定参量

  • 标本量 n1=36n_1 = 36n2=36n_2 = 36
  • 标本平均 X=498.5\overline X = 498.5Y=500.4\overline Y = 500.4
  • 总体方差 σ12=9\sigma_1^2 = 9σ22=9\sigma_2^2 = 9
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:μ1=μ2H_0: \mu_1 = \mu_2
  • 备择假设 H1:μ1μ2H_1: \mu_1 \neq \mu_2

计算检验统计量

Z=(XY)0σ12n1+σ22n2=(498.5500.4)0936+936=2.69Z = \frac{(\overline X - \overline Y) - 0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} = \frac{(498.5 - 500.4) - 0}{\sqrt{\frac{9}{36} + \frac{9}{36}}} = -2.69

α=0.05\alpha = 0.05 下,z(α/2)=1.960z(\alpha/2) = 1.960
由于 Z=2.69>1.960|Z| = 2.69 > 1.960,落在拒绝域内
所以拒绝原假设 H0H_0,接受备择假设 H1H_1
结论:在显著性水平 0.05 下,能说两家工厂生产的饮料容量存在差异

# t 检验

# χ2\chi^2 检验

通过计算出服从 X2\Chi^2 分布的统计量 χ2\chi^2,可以实现统计检验
对总体方差的检验可以使用 χ2\chi^2 检验

例题 已知总体平均的总体方差检验
某产品的重量服从正态分布,总体平均已知为 50g
现随机抽取 25 件产品,测得差值平方和

Q=i=125(Xi50)2=720Q = \sum_{i=1}^{25} (X_i - 50)^2 = 720

问在显著性水平 0.05 下,能否说该产品的重量方差不同于 25g225 g^2

设定参量

  • 标本量 n=25n = 25
  • 差值平方和 Q=720Q = 720
  • 宣称方差 σ02=25\sigma_0^2 = 25
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:σ2=25H_0: \sigma^2 = 25
  • 备择假设 H1:σ225H_1: \sigma^2 \neq 25

计算检验统计量

χ2=Qσ02=72025=28.8\chi^2 = \frac{Q}{\sigma_0^2} = \frac{720}{25} = 28.8

α=0.05\alpha = 0.05 下,查卡方分布表可得

χ252(0.025)=13.1,χ252(0.975)=40.7\chi^2_{25}(0.025) = 13.1,\quad \chi^2_{25}(0.975) = 40.7

由于 χ2=28.8\chi^2 = 28.8 不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该产品的重量方差不同于 25g225 g^2

例题 未知总体平均的总体方差检验
随机抽取某饮料 10 瓶,测得咖啡因浓度(单位 mg/L)如下

58,63,61,60,59,62,57,64,60,6158, 63, 61, 60, 59, 62, 57, 64, 60, 61

问在显著性水平 0.05 下,能否说该饮料的咖啡因浓度方差不同于 9(mg/L)29 (mg/L)^2

设定参量

  • 标本量 n=10n = 10
  • 标本数据 58,63,61,60,59,62,57,64,60,6158, 63, 61, 60, 59, 62, 57, 64, 60, 61
  • 标本方差 S2=4.7222S^2 = 4.7222
  • 宣称方差 σ02=9\sigma_0^2 = 9
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:σ2=9H_0: \sigma^2 = 9
  • 备择假设 H1:σ29H_1: \sigma^2 \neq 9

计算检验统计量

χ2=(n1)S2σ02=9×4.72229=4.7222\chi^2 = \frac{(n-1)S^2}{\sigma_0^2} = \frac{9 \times 4.7222}{9} = 4.7222

α=0.05\alpha = 0.05 下,查卡方分布表可得

χ92(0.025)=2.7,χ92(0.975)=19.0\chi^2_{9}(0.025) = 2.7,\quad \chi^2_{9}(0.975) = 19.0

由于 χ2=4.7222\chi^2 = 4.7222 不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该饮料的咖啡因浓度方差不同于 9(mg/L)29 (mg/L)^2

# t 检验

对于未知总体方差的总体平均检验,可以使用 t 检验

例题 未知总体方差的总体均值检验
随机抽取某碳酸饮料 12 瓶,测得其砂糖含量(单位 g/L)如下

9.6,10.1,10.4,9.8,11.2,10.5,9.9,10.3,10.7,9.5,10.0,10.69.6, 10.1, 10.4, 9.8, 11.2, 10.5, 9.9, 10.3, 10.7, 9.5, 10.0, 10.6

问在显著性水平 0.05 下,能否说该碳酸饮料的砂糖含量确实如标称的 10 g/L?

设定参量

  • 标本量 n=12n = 12
  • 标本平均 X=10.2167\overline X = 10.2167
  • 标本方差 S2=0.245S^2 = 0.245
  • 宣称平均 μ0=10\mu_0 = 10
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:μ=10H_0: \mu = 10
  • 备择假设 H1:μ10H_1: \mu \neq 10

计算检验统计量

T=Xμ0S/n=10.2167100.245/121.52T = \frac{\overline X - \mu_0}{S/\sqrt{n}} = \frac{10.2167 - 10}{\sqrt{0.245}/\sqrt{12}} \approx 1.52

α=0.05\alpha = 0.05 下,查 t 分布表可得

t11(0.025)=2.201t_{11}(0.025) = 2.201

由于 T1.52<2.201|T| \approx 1.52 < 2.201,不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该碳酸饮料的砂糖含量确实如标称的 10 g/L

t 检验同样可以用于等方差下的总体均值差值检验,即使不知道具体的总体方差

例题 等方差下的总体均值差值检验
某药品分别由传统方法 B 与新方法 A 生产
现从 A 方法中随机抽取 10 件样品,测得其有效成分含量(单位 mg)如下

100.8,100.5,100.6,100.7,100.4,100.2,100.5,100.6,100.3,100.8100.8, 100.5, 100.6, 100.7, 100.4, 100.2, 100.5, 100.6, 100.3, 100.8

从 B 方法中随机抽取 10 件样品,测得其有效成分含量(单位 mg)如下

99.6,99.8,99.7,99.9,100.0,99.5,99.7,99.8,99.6,99.899.6, 99.8, 99.7, 99.9, 100.0, 99.5, 99.7, 99.8, 99.6, 99.8

问在显著性水平 0.05 下,能否说两种方法生产的药品有效成分含量存在差异?

设定参量

  • 标本量 n1=10n_1 = 10n2=10n_2 = 10
  • 标本平均 X=100.54\overline X = 100.54Y=99.74\overline Y = 99.74
  • 标本方差 S12=0.0404S_1^2 = 0.0404S22=0.0227S_2^2 = 0.0227
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0:μ1=μ2H_0: \mu_1 = \mu_2
  • 备择假设 H1:μ1μ2H_1: \mu_1 \neq \mu_2

计算合并方差

Sp2=(n11)S12+(n21)S22n1+n22=9×0.0404+9×0.022718=0.03156S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} = \frac{9 \times 0.0404 + 9 \times 0.0227}{18} = 0.03156

计算检验统计量

T=(XY)0Sp1n1+1n2=(100.5499.74)00.03156110+11010.07T = \frac{(\overline X - \overline Y) - 0}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} = \frac{(100.54 - 99.74) - 0}{\sqrt{0.03156} \sqrt{\frac{1}{10} + \frac{1}{10}}} \approx 10.07

自由度 n1+n22=18n_1 + n_2 - 2 = 18
α=0.05\alpha = 0.05 下,查 t 分布表可得

t18(0.025)=2.101t_{18}(0.025) = 2.101

由于 T10.07>2.101|T| \approx 10.07 > 2.101,落在拒绝域内
所以拒绝原假设 H0H_0,接受备择假设 H1H_1
结论:在显著性水平 0.05 下,能说两种方法生产的药品有效成分含量存在差异

# 适合度检验与独立性检验

相较于前面对于统计量计算的检验,适合度检验与独立性检验更多地用于分类数据

适合度检验是给出一个具体的分布,通过统计检验判断样本数据是否服从该分布
独立性检验是给出两个分类变量,通过统计检验判断这两个变量是否独立

命题
对于任意 k2k \geq 2 与变量 y1,y2,,yky_1, y_2, \dots, y_k

(y1+y2++yk)2=r1+r2++rk=nn!r1!r2!rk!y1r1y2r2ykrk(y_1 + y_2 + \cdots + y_k)^2 = \sum_{r_1 + r_2 + \cdots + r_k = n} \frac{n!}{r_1! r_2! \cdots r_k!} y_1^{r_1} y_2^{r_2} \cdots y_k^{r_k}

例题 适合度检验
有某理论宣传血型分布为

p(0)=(A:0.4,B:0.3,AB:0.2,O:0.1)p^{(0)} = (A: 0.4,\ B: 0.3,\ AB: 0.2,\ O: 0.1)

现随机抽取 150 人,测得血型分布为

血型ABABO总计
人数64413312150

问在显著性水平 0.05 下,能否说该样本数据服从上述血型分布?

设定参量

  • 标本量 n=150n = 150
  • 标本数据见上表
  • 宣称分布 p(0)=(0.4,0.3,0.2,0.1)p^{(0)} = (0.4, 0.3, 0.2, 0.1)
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0H_0: 该样本数据服从上述血型分布
  • 备择假设 H1H_1: 该样本数据不服从上述血型分布

计算期望频数

血型ABABO总计
期望频数60453015150

计算检验统计量

χ2=(OiEi)2Ei=1.63\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} = 1.63

自由度 k1=41=3k - 1 = 4 - 1 = 3
α=0.05\alpha = 0.05 下,查卡方分布表可得

χ32(0.95)=7.815\chi^2_{3}(0.95) = 7.815

由于 χ2=1.63\chi^2 = 1.63 不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说该样本数据不服从上述血型分布

例题 独立性检验
通过对 206 名大学生抽样调查 【性别】 与 【喜欢的季节】 之间的关系,得到如下数据

性别 \ 季节总计
20322428104
28342020102
总计48664448206

问在显著性水平 0.05 下,能否说【性别】 与 【喜欢的季节】 存在关联?

设定参量

  • 标本量 n=206n = 206
  • 标本数据见上表
  • 显著性水平 α=0.05\alpha = 0.05 (两侧)

假设

  • 原假设 H0H_0: 【性别】 与 【喜欢的季节】 独立
  • 备择假设 H1H_1: 【性别】 与 【喜欢的季节】 不独立

计算期望频数

性别 \ 季节
24.2733.3222.2124.27
23.7332.6821.7923.73

计算检验统计量

χ2=(OiEi)2Ei3.08\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \approx 3.08

自由度 (r1)(c1)=(21)(41)=3(r-1)(c-1) = (2-1)(4-1) = 3
α=0.05\alpha = 0.05 下,查卡方分布表可得

χ32(0.95)=7.815\chi^2_{3}(0.95) = 7.815

由于 χ23.08\chi^2 \approx 3.08 不落在拒绝域内
所以不拒绝原假设 H0H_0,无法接受备择假设 H1H_1
结论:在显著性水平 0.05 下,不能说【性别】 与 【喜欢的季节】 存在关联

# 检验效能

固定显著性水平 α\alpha
考虑:究竟哪一种检验可以使得第二类错误概率 β\beta 最小化

先来关注针对 z 检验的这样的例子
给定显著性水平 α\alpha,以及 nn 个服从正态分布 N(μ,σ2)N(\mu, \sigma^2) 的样本

  • 原假设 H0:μ=μ0H_0: \mu = \mu_0
  • 备择假设 H1:μμ0H_1: \mu \neq \mu_0

计算出统计量

Z=Xμ0σ/nN(0,1)Z = \frac{\overline X - \mu_0}{\sigma/\sqrt{n}} \sim N(0,1)

现在可以知道,如果原假设 H0H_0 成立,那么

ZN(0,1)Z \sim N(0,1)

如果备择假设 H1H_1 成立,那么由于 XN(μ,σ2/n)\overline X \sim N(\mu', \sigma^2/n),其中 μ\mu' 为真实的总体平均,那么

ZN(δ,1),δ=μμ0σ/nZ \sim N\left(\delta, 1\right),\quad \delta = \frac{\mu' - \mu_0}{\sigma/\sqrt{n}}

那么,可以分别算出第一,第二类的错误概率

P(第一类错误)=P(拒绝H0H0成立)=P(Zz(α)ZN(0,1))=α\begin{aligned} P(\text{第一类错误}) &= P(\text{拒绝 } H_0 \mid H_0 \text{ 成立}) \\ &= P(|Z| \geq z(\alpha) \mid Z \sim N(0,1)) \\ &= \alpha \end{aligned}

β(μ):=P(第二类错误)=P(不拒绝H0H1成立)=P(z(α)Zz(α)ZN(δ,1))=z(α)z(α)12πexp((zδ)22)dz=z(α)δz(α)δ12πexp(u22)du\begin{aligned} \beta(\mu) := P(\text{第二类错误}) &= P(\text{不拒绝 } H_0 \mid H_1 \text{ 成立}) \\ &= P(-z(\alpha) \leq Z \leq z(\alpha) \mid Z \sim N(\delta,1)) \\ &= \int_{-z(\alpha)}^{z(\alpha)} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{(z - \delta)^2}{2}\right) dz \\ &= \int_{-z(\alpha) - \delta}^{z(\alpha) - \delta} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{u^2}{2}\right) du \end{aligned}

检验效能

π(μ)=1β(μ)=zz(α)δ12πexp(z22)dz\pi(\mu) = 1 - \beta(\mu) = \int_{|z| \geq z(\alpha) - \delta} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{z^2}{2}\right) dz

可以看出,如果缩小显著性水平 α\alpha,则 z(α)z(\alpha) 会增大,从而使得区间

[z(α)δ,z(α)δ][-z(\alpha) - \delta,\ z(\alpha) - \delta]

变大,那么结果上

第二类错误概率β(μ),检验效能π(μ)\text{第二类错误概率 } \beta(\mu) \uparrow,\quad \text{检验效能 } \pi(\mu) \downarrow

简单来说,减小显著性水平 α\alpha 会导致第二类错误概率增大,检验效能降低

同样可以得到,如果增大样本量 nn

第二类错误概率β(μ),检验效能π(μ)\text{第二类错误概率 } \beta(\mu) \downarrow,\quad \text{检验效能 } \pi(\mu) \uparrow

如果增加宣称平均 μ0\mu_0 与真实平均 μ\mu' 之间的差距 μμ0|\mu' - \mu_0|

第二类错误概率β(μ),检验效能π(μ)\text{第二类错误概率 } \beta(\mu) \downarrow,\quad \text{检验效能 } \pi(\mu) \uparrow