统计推断 (Statistical Inference) 是数理统计的核心内容
目前通过样本的选取与样本量的计算，可以得到

样本平均

$\overline X_n = \frac{1}{n} \sum_{i=1}^n X_i$

样本方差

$S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2$

自然，这些样本统计量会被期待与接近总体参数，但是重点在于究竟有多接近
由于总体参数是不可知的，所以推断统计无法判断得到类似 “总体平均是 $\overline X_n$ ” 这样的结论
而是得到类似 “总体平均应该很接近 $\overline X_n$ ”

通常有两个方向：点估计与区间估计

# 点估计

目标：构造总体参数的单值估计

通常采取的方法有

无偏估计
最小方差无偏估计
一致估计
极大似然估计

# 无偏估计

考虑如下一般情况
针对某总体参数 $\theta$
若某样本统计量 $\hat \theta = \hat \theta(X_1, X_2, \ldots, X_n)$ 服从的概率分布的期望值为 $\theta$ ，即

$E[\hat \theta] = \theta$

则称 $\hat \theta$ 为 $\theta$ 的 无偏估计量 (Unbiased Estimator)「不偏推定量」

命题
总体平均 $\mu$ 和总体方差 $\sigma^2$ 的无偏估计量分别为

$\hat \mu = \overline X_n = \frac{1}{n} \sum_{i=1}^n X_i$

$\hat \sigma^2 = S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X_n)^2$

# 最小方差无偏估计

无偏估计量只要求期望值一致。直观上也能明白：可以做出许多种不同的分布但是期望值相同的估计量
为了进一步限制估计量的准确性，定义
针对总体参数 $\theta$ 的所有无偏估计量当中，方差最小的估计量称为 $\theta$ 的 最小方差无偏估计 (Minimum Variance Unbiased Estimator, MVUE)「最小分散不偏推定量」

# 一致估计

此外，还可以依据一致性来进一步筛选估计量
若某推定量 $\hat \theta$ 对于任意 $\varepsilon > 0$ 都满足

$\lim_{n \to \infty} P(|\hat \theta - \theta| \geq \varepsilon) = 0$

则称 $\hat \theta$ 为 $\theta$ 的 一致估计量 (Consistent Estimator)「一致推定量」

# 极大似然估计

极大似然估计法 (Maximum Likelihood Estimation, MLE) 是一种基于 “最可能发生” 原则的参数估计方法。
设样本 $X_1, X_2, \ldots, X_n$ 来自密度函数 $f(x; \theta)$ 的总体
其中 $\theta$ 为未知参数。则样本的联合密度函数

$L(\theta) = L(X_1, X_2, \ldots, X_n ; \theta) = \prod_{i=1}^n f(X_i; \theta)$

称为样本的 似然函数 (Likelihood Function)「尤度関数」

极大似然估计法的目标是找到使得似然函数 $L(\theta)$ 取最大值的 $\theta$ ，记为 $\hat \theta$ ，称为 $\theta$ 的 极大似然估计量 (Maximum Likelihood Estimator)「最尤推定量」

实际计算中，通常对似然函数取对数 $\ln L(\theta)$ ，将乘积转化为求和，然后令导数为 $0$ 求解：

$\frac{d}{d\theta} \ln L(\theta) = 0$

# 区间估计

目标：给出参数可能范围的置信区间

区间估计需要先取一个 显著性水平 (Significance Level)「有意水準」 $\alpha$
通常来说取 $5\%$ 或 $1\%$ ，表示允许有 $5\%$ 或 $1\%$ 的概率错误，对应的 置信水平 (Confidence Level)「信頼係数」 为 $1-\alpha$

在此系数下计算得到的区间称为 置信区间 (Confidence Interval)「信頼区間」
也就是说，对于总体参数 $\theta$ ，通过样本计算得到的置信区间 $[L, U]$ 满足

$P(L \leq \theta \leq U) = 1 - \alpha$

# 估计总体平均（已知总体方差）

核心是进行标准化得到服从标准正态分布的统计量

考虑服从正态分布的总体 $N(\mu, \sigma^2)$ ，其中 $\sigma^2$ 已知，目标是推测总体平均 $\mu$

注意，即使对于非正态分布，也可以基于中心极限定理，在样本量足够大的情况下使用此方法

取样本 $X_1, X_2, \ldots, X_n$ ，计算得到样本平均 $\overline X_n$ ，此时 $\overline X_n \sim N(\mu, \frac{\sigma^2}{n})$ ，则

$Z = \frac{\overline X_n - \mu}{\sigma / \sqrt{n}} \sim N(0,1)$

此时利用标准正态分布表，查出双侧 $\alpha$ 分位点 $z_{\alpha/2}$ （即 $P(Z > z_{\alpha/2}) = \alpha/2$ ），则有

$P\left(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}\right) = 1 - \alpha$

代入 $Z$ 的表达式，得到

$P\left(\overline X_n - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \overline X_n + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right) = 1 - \alpha$

此时区间 $\left[\overline X_n - z_{\alpha/2} \frac{\sigma}{\sqrt{n}},\quad \overline X_n + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right]$ 即为 $\mu$ 的置信水平 $1-\alpha$ 下的置信区间

# 估计总体平均（未知总体方差）

核心是利用 t 分布进行估计，使用无偏方差 $S^2$ 作为代替

取样本 $X_1, X_2, \ldots, X_n$ ，此时

$t = \frac{\overline X_n - \mu}{\sqrt{S^2 / n}} \sim t(n-1)$

利用 t 分布表，查出双侧 $\alpha$ 分位点 $t_{\alpha/2}(n-1)$ ，则有

$P\left(-t_{\alpha/2}(n-1) \leq t \leq t_{\alpha/2}(n-1)\right) = 1 - \alpha$

代入得到

$P\left(\overline X_n - t_{\alpha/2}(n-1) \sqrt{\frac{S^2}{n}} \leq \mu \leq \overline X_n + t_{\alpha/2}(n-1) \sqrt{\frac{S^2}{n}}\right) = 1 - \alpha$

此时区间 $\left[\overline X_n - t_{\alpha/2}(n-1) \sqrt{\frac{S^2}{n}},\quad \overline X_n + t_{\alpha/2}(n-1) \sqrt{\frac{S^2}{n}}\right]$ 即为 $\mu$ 的置信水平 $1-\alpha$ 下的置信区间

# 估计总体比例

核心是利用二项分布的正态近似

总体比例指的是，总体中满足某一特征（属于集合 $A$ ）的个体所占的比例，记为 $p$

随机取出 $n$ 个样本，记符合条件的数量

$S_n = \# \{X_i \mid X_i \in A , i = 1, 2, \ldots, n\}$

则显然 $S_n \sim B(n, p)$ ，其样本比例 $\hat{p} = \frac{S_n}{n}$ 的期望为 $p$ ，方差为 \frac{p(1-p)}

利用中心极限定理章节的 De Moivre–Laplace 定理可以知道，在 $n$ 足够大时

$Z = \frac{\hat{p} - p}{\sqrt{p(1-p)/n}} \sim N(0,1)$

所以问题转回标准正态分布

$P\left(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}\right) = 1 - \alpha$

代入 $Z$ 的表达式，得到

$P\left(\hat p - z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}} \leq p \leq \hat p + z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}}\right) \approx 1 - \alpha$

虽然总体比例 $p$ 未知，但是在大样本下，可以用样本比例 $\hat{p}$ 近似替代标准误中的 $p$ （Slutsky 定理），此时置信区间为

$\left[\hat p - z_{\alpha/2} \sqrt{\frac{\hat p (1 - \hat p)}{n}},\quad \hat p + z_{\alpha/2} \sqrt{\frac{\hat p (1 - \hat p)}{n}}\right]$

# 估计总体平均之差（已知总体方差）

核心是借由正态分布的四则性质

考虑两个服从正态分布的总体 $N(\mu_1, \sigma_1^2)$ 和 $N(\mu_2, \sigma_2^2)$ ，其中 $\sigma_1^2$ 和 $\sigma_2^2$ 已知，目标是推测总体平均之差 $\mu_1 - \mu_2$

分别取样本 $X_1, X_2, \ldots, X_{n_1}$ 和 $Y_1, Y_2, \ldots, Y_{n_2}$ ，则

$Z = \frac{(\overline X_{n_1} - \overline Y_{n_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0,1)$

同样根据标准正态分布

$P\left(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}\right) = 1 - \alpha$

解出 $\mu_1 - \mu_2$ 的置信区间为

$\left[(\overline X_{n_1} - \overline Y_{n_2}) - z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}},\quad (\overline X_{n_1} - \overline Y_{n_2}) + z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\right]$

# 估计总体平均之差（未知总体方差）

核心是利用 t 分布，但需根据两总体方差是否相等分为两种情况

# 情形 1：假设方差相等 $\sigma_1^2 = \sigma_2^2 = \sigma^2$

此时可以将两组样本的方差合并，计算 合并方差 (Pooled Variance)

$S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$

构造统计量

$t = \frac{(\overline X_{n_1} - \overline Y_{n_2}) - (\mu_1 - \mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)$

置信区间为

$\left[(\overline X_{n_1} - \overline Y_{n_2}) \pm t_{\alpha/2}(n_1+n_2-2) \cdot S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\right]$

# 情形 2：不假设方差相等 $\sigma_1^2 \neq \sigma_2^2$

此时统计量不再精确服从 t 分布，但可以近似

$t = \frac{(\overline X_{n_1} - \overline Y_{n_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \approx t(\nu)$

其中自由度 $\nu$ 由 Welch–Satterthwaite 公式 给出（通常取整）

$\nu \approx \frac{\left(\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1} + \frac{(S_2^2/n_2)^2}{n_2-1}}$

置信区间为

$\left[(\overline X_{n_1} - \overline Y_{n_2}) \pm t_{\alpha/2}(\nu) \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}\right]$

# 估计总体方差（已知总体平均）

核心是利用卡方分布

考虑服从正态分布的总体 $N(\mu, \sigma^2)$ ，其中 $\mu$ 已知，目标是推测总体方差 $\sigma^2$

取样本 $X_1, X_2, \ldots, X_n$ ，则

$\chi^2 = \frac{\sum_{i=1}^n (X_i - \mu)^2}{\sigma^2} \sim \chi^2(n)$

注意：此处因为 $\mu$ 已知，没有消耗自由度，故为 $n$

利用卡方分布表，查出两侧 $\alpha$ 分位点 $\chi^2_{1-\alpha/2}(n)$ 和 $\chi^2_{\alpha/2}(n)$ （注意卡方分布不对称），则有

$P\left(\chi^2_{1-\alpha/2}(n) \leq \chi^2 \leq \chi^2_{\alpha/2}(n)\right) = 1 - \alpha$

代入 $\chi^2$ 的表达式，置信区间为

$\left[\frac{\sum_{i=1}^n (X_i - \mu)^2}{\chi^2_{\alpha/2}(n)},\quad \frac{\sum_{i=1}^n (X_i - \mu)^2}{\chi^2_{1-\alpha/2}(n)}\right]$

# 估计总体方差（未知总体平均）

核心是 Fisher-Cochran 定理

定理 Fisher-Cochran 定理
对于来自正态总体 $N(\mu, \sigma^2)$ 的样本 $X_1, X_2, \ldots, X_n$

$\frac{\sum_{i=1}^n (X_i - \overline X_n)^2}{\sigma^2} = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$

且 $(n-1)S^2$ 与 $\overline X_n$ 相互独立

利用此定理，可以实现不使用总体平均的前提下估计总体方差

取样本 $X_1, X_2, \ldots, X_n$ ，则

$\chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$

利用卡方分布表，查出两侧 $\alpha$ 分位点 $\chi^2_{1-\alpha/2}(n-1)$ 和 $\chi^2_{\alpha/2}(n-1)$ ，则有

$P\left(\chi^2_{1-\alpha/2}(n-1) \leq \chi^2 \leq \chi^2_{\alpha/2}(n-1)\right) = 1 - \alpha$

代入 $\chi^2$ 的表达式，得到 $\sigma^2$ 的置信区间为

$\left[\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)},\quad \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right]$

内容已经过 Gemini 3.0 Pro 审查

# 点估计

# 无偏估计

# 最小方差无偏估计

# 一致估计

# 极大似然估计

# 区间估计

# 估计总体平均（已知总体方差）

# 估计总体平均（未知总体方差）

# 估计总体比例

# 估计总体平均之差（已知总体方差）

# 估计总体平均之差（未知总体方差）

# 情形 1：假设方差相等 σ12=σ22=σ2\sigma_1^2 = \sigma_2^2 = \sigma^2σ12​=σ22​=σ2

# 情形 2：不假设方差相等 σ12≠σ22\sigma_1^2 \neq \sigma_2^2σ12​=σ22​

# 估计总体方差（已知总体平均）

# 估计总体方差（未知总体平均）

【数理统计】假设检验

【数理统计】6-抽样分布

# 情形 1：假设方差相等 $\sigma_1^2 = \sigma_2^2 = \sigma^2$

# 情形 2：不假设方差相等 $\sigma_1^2 \neq \sigma_2^2$