统计推断 (Statistical Inference) 是数理统计的核心内容
目前通过样本的选取与样本量的计算,可以得到

  • 样本平均 Xn=1ni=1nXi\overline X_n = \frac{1}{n} \sum_{i=1}^n X_i
  • 样本方差 s2=1ni=1n(XiXn)2s^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \overline X_n)^2

自然,这些样本统计量会被期待与接近总体参数,但是重点在于究竟有多接近
由于总体参数是不可知的,所以推断统计无法判断得到类似 “总体平均是 Xn\overline X_n” 这样的结论
而是得到类似 “总体平均应该很接近 Xn\overline X_n

通常有两个方向:点估计与区间估计

# 点估计

目标:构造总体参数的单值估计

通常采取的方法有

  • 无偏估计
  • 最小方差无偏估计
  • 一致估计
  • 极大似然估计

# 无偏估计

考虑如下一般情况
针对某总体参数 θ\theta
若某样本统计量 θ^=θ^(X1,X2,,Xn)\hat \theta = \hat \theta(X_1, X_2, \ldots, X_n) 服从的概率分布的期望值为 θ\theta,即

E[θ^]=θE[\hat \theta] = \theta

则称 θ^\hat \thetaθ\theta无偏估计量 (Unbiased Estimator)「不偏推定量」

命题
总体平均 μ\mu 和总体方差 σ2\sigma^2 的无偏估计量分别为

μ^=Xn=1ni=1nXi\hat \mu = \overline X_n = \frac{1}{n} \sum_{i=1}^n X_i

σ^2=S2=1n1i=1n(XiXn)2\hat \sigma^2 = S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2

# 最小方差无偏估计

无偏估计量只要求期望值一致。直观上也能明白:可以做出许多种不同的分布但是期望值相同的估计量
为了进一步限制估计量的准确性,定义
针对总体参数 θ\theta 的所有无偏估计量当中,方差最小的估计量称为 θ\theta最小方差无偏估计 (Minimum Variance Unbiased Estimator, MVUE)「最小分散不偏推定量」

# 一致估计

此外,还可以依据一致性来进一步筛选估计量
若某推定量 θ^\hat \theta 对于任意 ε>0\varepsilon > 0 都满足

limnP(θ^θε)=1\lim_{n \to \infty} P(|\hat \theta - \theta| \geq \varepsilon) = 1

则称 θ^\hat \thetaθ\theta一致估计量 (Consistent Estimator)「一致推定量」

# 极大似然估计

极大似然估计法 (Maximum Likelihood Estimation, MLE) 基于无偏估计
设样本 X1,X2,,XnX_1, X_2, \ldots, X_n 来自密度函数 f(x;θ)f(x; \theta) 的总体
其中 θ\theta 为未知参数,虽然一般来说密度函数不含参数,但是由于此处强调对 θ\theta 的估计,所以将其写出
则样本的联合密度函数

L(X1,X2,,Xn;θ)=f(X1;θ)f(X2;θ)f(Xn;θ)L(X_1, X_2, \ldots, X_n ; \theta) = f(X_1; \theta) f(X_2; \theta) \cdots f(X_n; \theta)

称为样本的 似然函数 (Likelihood Function)「尤度関数」
通过代入样本数据,可以将似然函数视为 θ\theta 的函数 L(θ)L(\theta)

极大似然估计法的目标是找到使得似然函数 L(θ)L(\theta) 取最大值的 θ\theta,记为 θ^\hat \theta,称为 θ\theta极大似然估计量 (Maximum Likelihood Estimator)「最尤推定量」

# 区间估计

目标:给出参数可能范围的置信区间

区间估计需要先取一个 显著性水平 (Confidence Level)「有意水準」 α\alpha
通常来说取 5%5\%1%1\%,表示允许有 5%5\%1%1\% 的概率错误

在此系数下计算得到的区间称为 置信区间 (Confidence Interval)「信頼区間」
也就是说,对于总体参数 θ\theta,通过样本计算得到的置信区间 [L,U][L, U] 满足

P(LθU)=1αP(L \leq \theta \leq U) = 1 - \alpha

# 估计总体平均(已知总体方差)

核心是进行标准化得到服从标准正态分布的统计量

考虑服从正态分布的总体 N(μ,σ2)N(\mu, \sigma^2),其中 σ2\sigma^2 已知,目标是推测总体平均 μ\mu

注意,即使对于非正态分布,也可以基于中心极限定理,在样本量足够大的情况下使用此方法

取样本 X1,X2,,XnX_1, X_2, \ldots, X_n,计算得到样本平均 Xn\overline X_n,此时 XnN(μ,σ2n)\overline X_n \sim N(\mu, \frac{\sigma^2}{n}),则

Z=Xnμσ/nN(0,1)Z = \frac{\overline X_n - \mu}{\sigma / \sqrt{n}} \sim N(0,1)

此时利用标准正态分布表,查出两侧 α\alpha±z(α)\pm z(\alpha),则有

P(z(α)Zz(α))=1αP\left(-z(\alpha) \leq Z \leq z(\alpha)\right) = 1 - \alpha

标准正态分布两侧分点

代入 ZZ 的表达式,得到

P(Xnz(α)σnμXn+z(α)σn)=1αP\left(\overline X_n - z(\alpha) \frac{\sigma}{\sqrt{n}} \leq \mu \leq \overline X_n + z(\alpha) \frac{\sigma}{\sqrt{n}}\right) = 1 - \alpha

此时区间 [Xnz(α)σn,Xn+z(α)σn]\left[\overline X_n - z(\alpha) \frac{\sigma}{\sqrt{n}},\quad \overline X_n + z(\alpha) \frac{\sigma}{\sqrt{n}}\right] 即为 μ\mu 的显著性水平 α\alpha 下的置信区间

# 估计总体平均(未知总体方差)

核心是利用 t 分布进行估计,使用无偏方差 S2S^2 作为代替

取样本 X1,X2,,XnX_1, X_2, \ldots, X_n,此时

t=XnμS2/nt(n1)t = \frac{\overline X_n - \mu}{\sqrt{S^2 / n}} \sim t(n-1)

利用 t 分布表,查出两侧 α\alpha±tn1(α)\pm t_{n-1}(\alpha),则有

P(tn1(α)ttn1(α))=1αP\left(-t_{n-1}(\alpha) \leq t \leq t_{n-1}(\alpha)\right) = 1 - \alpha

代入得到

P(Xntn1(α)S2nμXn+tn1(α)S2n)=1αP\left(\overline X_n - t_{n-1}(\alpha) \sqrt{\frac{S^2}{n}} \leq \mu \leq \overline X_n + t_{n-1}(\alpha) \sqrt{\frac{S^2}{n}}\right) = 1 - \alpha

此时区间 [Xntn1(α)S2n,Xn+tn1(α)S2n]\left[\overline X_n - t_{n-1}(\alpha) \sqrt{\frac{S^2}{n}},\quad \overline X_n + t_{n-1}(\alpha) \sqrt{\frac{S^2}{n}}\right] 即为 μ\mu 的显著性水平 α\alpha 下的置信区间

# 估计总体比例

核心是利用二项分布的正态近似

总体比例指的是,总体中满足某一特征(属于集合 AA)的个体所占的比例,记为 pp

随机取出 nn 个样本,记符合条件的数量

Sn=#{XiXiA,i=1,2,,n}S_n = \# \{X_i \mid X_i \in A , i = 1, 2, \ldots, n\}

则显然 SnB(n,p)S_n \sim B(n, p),也就是说

P(Sn=k)=(nk)pk(1p)nk,E[Sn]=np,V[Sn]=np(1p)P(S_n = k) = \binom{n}{k} p^k (1-p)^{n-k},\quad E[S_n] = np,\quad V[S_n] = np(1-p)

利用中心极限定理章节的 De Moivre–Laplace 定理可以知道,在 nn \to \infty

T=Snnpnp(1p)N(0,1)T = \frac{S_n - np}{\sqrt{np(1-p)}} \sim N(0,1)

所以问题转回标准正态分布

P(z(α)Tz(α))=1αP\left(-z(\alpha) \leq T \leq z(\alpha)\right) = 1 - \alpha

代入 TT 的表达式,得到

P(Snz(α)np(1p)npSn+z(α)np(1p)n)=1αP\left(\frac{S_n - z(\alpha) \sqrt{np(1-p)}}{n} \leq p \leq \frac{S_n + z(\alpha) \sqrt{np(1-p)}}{n}\right) = 1 - \alpha

虽然总体方差未知,但是通过无偏估计量可知 p^\hat ppp 之间只有 O(1n)O(\frac{1}{\sqrt{n}}) 的差距,所以作为替换,可以将不等式两边改写为

P(p^z(α)p^(1p^)npp^+z(α)p^(1p^)n)=1αP\left(\hat p - z(\alpha) \sqrt{\frac{\hat p (1 - \hat p)}{n}} \leq p \leq \hat p + z(\alpha) \sqrt{\frac{\hat p (1 - \hat p)}{n}}\right) = 1 - \alpha

此时区间 [p^z(α)p^(1p^)n,p^+z(α)p^(1p^)n]\left[\hat p - z(\alpha) \sqrt{\frac{\hat p (1 - \hat p)}{n}},\quad \hat p + z(\alpha) \sqrt{\frac{\hat p (1 - \hat p)}{n}}\right] 即为 pp 的显著性水平 α\alpha 下的置信区间

# 估计总体平均之差(已知总体方差)

核心是借由正态分布的四则性质

考虑两个服从正态分布的总体 N(μ1,σ12)N(\mu_1, \sigma_1^2)N(μ2,σ22)N(\mu_2, \sigma_2^2),其中 σ12\sigma_1^2σ22\sigma_2^2 已知,目标是推测总体平均之差 μ1μ2\mu_1 - \mu_2

分别取样本 X1,X2,,Xn1X_1, X_2, \ldots, X_{n_1}Y1,Y2,,Yn2Y_1, Y_2, \ldots, Y_{n_2},则

Z=(Xn1Yn2)(μ1μ2)σ12n1+σ22n2N(0,1)Z = \frac{(\overline X_{n_1} - \overline Y_{n_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0,1)

同样根据标准正态分布

P(z(α)Zz(α))=1αP\left(-z(\alpha) \leq Z \leq z(\alpha)\right) = 1 - \alpha

代入 ZZ 的表达式,得到

P((Xn1Yn2)z(α)σ12n1+σ22n2μ1μ2(Xn1Yn2)+z(α)σ12n1+σ22n2)=1αP\left((\overline X_{n_1} - \overline Y_{n_2}) - z(\alpha) \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \leq \mu_1 - \mu_2 \leq (\overline X_{n_1} - \overline Y_{n_2}) + z(\alpha) \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\right) = 1 - \alpha

此时区间 [(Xn1Yn2)z(α)σ12n1+σ22n2,(Xn1Yn2)+z(α)σ12n1+σ22n2]\left[(\overline X_{n_1} - \overline Y_{n_2}) - z(\alpha) \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}},\quad (\overline X_{n_1} - \overline Y_{n_2}) + z(\alpha) \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\right] 即为 μ1μ2\mu_1 - \mu_2 的显著性水平 α\alpha 下的置信区间

# 估计总体平均之差(未知总体方差)

# 估计总体方差(已知总体平均)

核心是利用卡方分布

考虑服从正态分布的总体 N(μ,σ2)N(\mu, \sigma^2),其中 μ\mu 已知,目标是推测总体方差 σ2\sigma^2

取样本 X1,X2,,XnX_1, X_2, \ldots, X_n,则

χ2=i=1n(Xiμ)2σ2=(n1)S2σ2χ2(n1)\chi^2 = \frac{\sum_{i=1}^n (X_i - \mu)^2}{\sigma^2} = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

利用卡方分布表,查出两侧 α\alphaχn12(α)\chi^2_{n-1}(\alpha)χn12(1α)\chi^2_{n-1}(1-\alpha),则有

P(χn12(α)χ2χn12(1α))=1αP\left(\chi^2_{n-1}(\alpha) \leq \chi^2 \leq \chi^2_{n-1}(1-\alpha)\right) = 1 - \alpha

代入 χ2\chi^2 的表达式,得到

P((n1)S2χn12(1α)σ2(n1)S2χn12(α))=1αP\left(\frac{(n-1)S^2}{\chi^2_{n-1}(1-\alpha)} \leq \sigma^2 \leq \frac{(n-1)S^2}{\chi^2_{n-1}(\alpha)}\right) = 1 - \alpha

此时区间 [(n1)S2χn12(1α),(n1)S2χn12(α)]\left[\frac{(n-1)S^2}{\chi^2_{n-1}(1-\alpha)},\quad \frac{(n-1)S^2}{\chi^2_{n-1}(\alpha)}\right] 即为 σ2\sigma^2 的显著性水平 α\alpha 下的置信区间

# 估计总体方差(未知总体平均)

核心是 Fisher-Cochran 定理

定理 Fisher-Cochran 定理
对于来自正态总体 N(μ,σ2)N(\mu, \sigma^2) 的样本 X1,X2,,XnX_1, X_2, \ldots, X_n

i=1n(XiXn)2σ2χ2(n1)\frac{\sum_{i=1}^n (X_i - \overline X_n)^2}{\sigma^2} \sim \chi^2(n-1)

(n1)S2(n-1)S^2Xn\overline X_n 相互独立

利用此定理,可以实现不使用总体平均的前提下估计总体方差

取样本 X1,X2,,XnX_1, X_2, \ldots, X_n,则

χ2=i=1n(XiXn)2σ2χ2(n1)\chi^2 = \frac{\sum_{i=1}^n (X_i - \overline X_n)^2}{\sigma^2} \sim \chi^2(n-1)

利用卡方分布表,查出两侧 α\alphaχn12(α)\chi^2_{n-1}(\alpha)χn12(1α)\chi^2_{n-1}(1-\alpha),则有

P(χn12(α)χ2χn12(1α))=1αP\left(\chi^2_{n-1}(\alpha) \leq \chi^2 \leq \chi^2_{n-1}(1-\alpha)\right) = 1 - \alpha

代入 χ2\chi^2 的表达式,得到

P(i=1n(XiXn)2χn12(1α)σ2i=1n(XiXn)2χn12(α))=1αP\left(\frac{\sum_{i=1}^n (X_i - \overline X_n)^2}{\chi^2_{n-1}(1-\alpha)} \leq \sigma^2 \leq \frac{\sum_{i=1}^n (X_i - \overline X_n)^2}{\chi^2_{n-1}(\alpha)}\right) = 1 - \alpha

此时区间 [i=1n(XiXn)2χn12(1α),i=1n(XiXn)2χn12(α)]\left[\frac{\sum_{i=1}^n (X_i - \overline X_n)^2}{\chi^2_{n-1}(1-\alpha)},\quad \frac{\sum_{i=1}^n (X_i - \overline X_n)^2}{\chi^2_{n-1}(\alpha)}\right] 即为 σ2\sigma^2 的显著性水平 α\alpha 下的置信区间