本章对几个常见的抽样分布进行介绍
需要明确的是,抽样分布本质上还是概率分布
但是关注的点应该是如何做出服从对应抽样分布的统计量,并以此进行计算
所以不必过于关注抽样分布的概率密度函数

# 卡方分布

# 定义

对于自然数 nn,由

fn(x)={12n/2Γ(n/2)xn/21ex/2,x>00,otherwisef_n(x) = \begin{cases} \displaystyle\frac{1}{2^{n/2} \Gamma(n/2)} x^{n/2-1} e^{-x/2}, & x \gt 0 \\ 0, & \text{otherwise} \end{cases}

给出的概率分布称为自由度 nn卡方分布 (Chi-Squared Distribution)「カイ二乗分布」,记为 χ2(n)\chi^2(n)

其中

Γ(t)=0+xt1exdx\Gamma(t) = \int_0^{+\infty} x^{t-1} e^{-x} \, dx

为 Gamma 函数

# 性质

对于 χ2\chi^2 分布

  • 矩母函数 Mχ2(t)=(12t)n/2M_{\chi^2}(t) = (1 - 2t)^{-n/2}t<12t \lt \frac{1}{2} \quad
  • 期望值 E[χ2]=nE[\chi^2] = n
  • 方差 V[χ2]=2nV[\chi^2] = 2n
全概率和验证

0+fn(x)dx=12n/2Γ(n/2)0+xn/21ex/2dx\int_0^{+\infty} f_n(x) \, dx = \frac{1}{2^{n/2} \Gamma(n/2)} \int_0^{+\infty} x^{n/2 - 1} e^{-x/2} \, dx

y=x2y = \frac{x}{2},则 x=2yx = 2ydx=2dydx = 2 dy

=12n/2Γ(n/2)0+(2y)n/21ey2dy=2n/22n/2Γ(n/2)0+yn/21eydy=Γ(n/2)Γ(n/2)=1= \frac{1}{2^{n/2} \Gamma(n/2)} \int_0^{+\infty} (2y)^{n/2 - 1} e^{-y} \cdot 2 \, dy = \frac{2^{n/2}}{2^{n/2} \Gamma(n/2)} \int_0^{+\infty} y^{n/2 - 1} e^{-y} \, dy = \frac{\Gamma(n/2)}{\Gamma(n/2)} = 1

矩母函数推导

Mχ2(t)=E[etχ2]=0+etxfn(x)dx=12n/2Γ(n/2)0+xn/21ex/2+txdxM_{\chi^2}(t) = E[e^{t \chi^2}] = \int_0^{+\infty} e^{t x} f_n(x) \, dx = \frac{1}{2^{n/2} \Gamma(n/2)} \int_0^{+\infty} x^{n/2 - 1} e^{-x/2 + t x} \, dx

u=(12t)xu = \left(\frac{1}{2} - t\right) x,则 x=u12tx = \frac{u}{\frac{1}{2} - t}dx=du12tdx = \frac{du}{\frac{1}{2} - t}

=12n/2Γ(n/2)0+(u12t)n/21eudu12t=12n/2Γ(n/2)1(12t)n/20+un/21eudu=12n/2Γ(n/2)1(12t)n/2Γ(n2)=1(12t)n/2=(12t)n/2= \frac{1}{2^{n/2} \Gamma(n/2)} \int_0^{+\infty} \left(\frac{u}{\frac{1}{2} - t}\right)^{n/2 - 1} e^{-u} \cdot \frac{du}{\frac{1}{2} - t} = \frac{1}{2^{n/2} \Gamma(n/2)} \cdot \frac{1}{\left(\frac{1}{2} - t\right)^{n/2}} \int_0^{+\infty} u^{n/2 - 1} e^{-u} \, du = \frac{1}{2^{n/2} \Gamma(n/2)} \cdot \frac{1}{\left(\frac{1}{2} - t\right)^{n/2}} \Gamma\left(\frac{n}{2}\right) = \frac{1}{\left(\frac{1}{2} - t\right)^{n/2}} = (1 - 2t)^{-n/2}

期望值推导

E[χ2]=Mχ2(0)=n2(120)n/212=nE[\chi^2] = M_{\chi^2}'(0) = \frac{n}{2} (1 - 2 \cdot 0)^{-n/2 - 1} \cdot 2 = n

方差推导

V[χ2]=E[χ4](E[χ2])2=Mχ2(0)n2=n(n+2)4(120)n/224n2=n(n+2)n2=2n\begin{aligned} V[\chi^2] &= E[\chi^4] - (E[\chi^2])^2 \\ &= M_{\chi^2}''(0) - n^2 \\ &= \frac{n(n+2)}{4} (1 - 2 \cdot 0)^{-n/2 - 2} \cdot 4 - n^2 \\ &= n(n+2) - n^2 \\ &= 2n \end{aligned}

命题
自由度 nnX2\Chi^2 分布实际上是 Gamma 分布 Γ(n2,12)\Gamma\left(\frac{n}{2}, \frac{1}{2}\right)

# 统计量制作

命题
XN(0,En)\boldsymbol X \sim N(\boldsymbol 0, E_n),即 nn 个随机变量独立同分布于标准正态分布,令

χ2=i=1nXi2\chi^2 = \sum_{i=1}^n X_i^2

χ2χ2(n)\chi^2 \sim \chi^2(n)

证明

计算验证矩母函数相同

性质上,若 χ12χ2(n1)\chi^2_1 \sim \chi^2(n_1)χ22χ2(n2)\chi^2_2 \sim \chi^2(n_2)χ12,χ22\chi^2_1, \chi^2_2 独立,则有

χ12+χ22χ2(n1+n2)\chi^2_1 + \chi^2_2 \sim \chi^2(n_1 + n_2)


基于标准正态分布的制作方法,可以推广到 N(μ,σ2)N(\mu, \sigma^2),令

χ2=i=1n(Xiμσ)2\chi^2 = \sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2

χ2χ2(n)\chi^2 \sim \chi^2(n)

此外,由于总平均 μ\mu 往往未知,所以应用上最常用和关键的制作方法是令

χ2=i=1n(XiXnσ)2=ns2σ2\chi^2 = \sum_{i=1}^n \left(\frac{X_i - \overline X_n}{\sigma}\right)^2 = \frac{ns^2}{\sigma^2}

χ2χ2(n1)\chi^2 \sim \chi^2(n-1),注意自由度不同

# F 分布

# 定义

对于自然数 m,nm,n,由

fm,n(x)={mm/2nn/2B(m/2,n/2)xm/21(mx+n)(m+n)/2,x>00,otherwisef_{m,n}(x) = \begin{cases} \displaystyle\frac{m^{m/2} n^{n/2}}{B(m/2, n/2)} \frac{x^{m/2 - 1}}{(mx + n)^{(m+n)/2}}, & x > 0 \\ 0, & \text{otherwise} \end{cases}

给出的概率分布称为分子自由度 mm,分母自由度 nnF 分布 (F Distribution)「F 分布」,记为 F(m,n)F(m,n)
其中

B(p,q)=01xp1(1x)q1dxB(p,q) = \int_0^1 x^{p-1} (1 - x)^{q-1} \, dx

为 Beta 函数

  • 矩母函数 MF(t)=2F1(m2,m+n2;m2+1;2mtm+n)M_{F}(t) = {}_2F_1\left(\frac{m}{2}, \frac{m+n}{2}; \frac{m}{2} + 1; \frac{2m t}{m+n}\right)t<m+n2mt \lt \frac{m+n}{2m} \quad
  • 期望值 E[F]=nn2E[F] = \dfrac{n}{n-2}n>2n \gt 2
  • 方差 V[F]=2n2(m+n2)m(n2)2(n4)V[F] = \dfrac{2 n^2 (m+n-2)}{m (n-2)^2 (n-4)}n>4n \gt 4
全概率和验证

0+fm,n(x)dx=mm/2nn/2B(m/2,n/2)0+xm/21(mx+n)(m+n)/2dx\int_0^{+\infty} f_{m,n}(x) \,dx = \frac{m^{m/2} n^{n/2}}{B(m/2, n/2)} \int_0^{+\infty} \frac{x^{m/2 - 1}}{(mx + n)^{(m+n)/2}} \, dx

y=mxmx+ny = \frac{m x}{m x + n},则 x=nym(1y)x = \frac{n y}{m(1 - y)}dx=nm(1y)2dydx = \frac{n}{m(1 - y)^2} \, dy

=mm/2nn/2B(m/2,n/2)01(nym(1y))m/21(mnym(1y)+n)(m+n)/2nm(1y)2dy=mm/2nn/2B(m/2,n/2)01(nym(1y))m/21(n1y)(m+n)/2nm(1y)2dy= \frac{m^{m/2} n^{n/2}}{B(m/2, n/2)} \int_0^1 \frac{\left(\frac{n y}{m(1 - y)}\right)^{m/2 - 1}}{\left(m \cdot \frac{n y}{m(1 - y)} + n\right)^{(m+n)/2}} \cdot \frac{n}{m(1 - y)^2} \, dy = \frac{m^{m/2} n^{n/2}}{B(m/2, n/2)} \int_0^1 \frac{\left(\frac{n y}{m(1 - y)}\right)^{m/2 - 1}}{\left(\frac{n}{1 - y}\right)^{(m+n)/2}} \cdot \frac{n}{m(1 - y)^2} \, dy

=mm/2nn/2B(m/2,n/2)01nm/21ym/21(1y)(m+n)/2mm/21n(m+n)/2nm(1y)2dy=mm/2nn/2B(m/2,n/2)nm/2mm/2n(m+n)/201ym/21(1y)n/21dy=1B(m/2,n/2)B(m/2,n/2)=1= \frac{m^{m/2} n^{n/2}}{B(m/2, n/2)} \int_0^1 \frac{n^{m/2 - 1} y^{m/2 - 1} (1 - y)^{(m+n)/2}}{m^{m/2 - 1} n^{(m+n)/2}} \cdot \frac{n}{m(1 - y)^2} \, dy = \frac{m^{m/2} n^{n/2}}{B(m/2, n/2)} \cdot \frac{n^{m/2} }{m^{m/2} n^{(m+n)/2}} \int_0^1 y^{m/2 - 1} (1 - y)^{n/2 - 1} \, dy = \frac{1}{B(m/2, n/2)} \cdot B(m/2, n/2) = 1

# 统计量制作

命题
χ12χ2(m)\chi^2_1 \sim \chi^2(m)χ22χ2(n)\chi^2_2 \sim \chi^2(n)χ12,χ22\chi^2_1, \chi^2_2 独立,令

F=χ12/mχ22/nF = \frac{\chi^2_1 / m}{\chi^2_2 / n}

FF(m,n)F \sim F(m,n)

一般地
从服从正态分布 N(μ1,σ12)N(\mu_1, \sigma_1^2) 的总体中抽取 mm 个样本 X1,X2,,XmX_1, X_2, \ldots, X_m
从服从正态分布 N(μ2,σ22)N(\mu_2, \sigma_2^2) 的总体中抽取 nn 个样本 Y1,Y2,,YnY_1, Y_2, \ldots, Y_n,令

F=msX2/(m1)σ12nsY2/(n1)σ22F = \frac{m s_X^2 / (m - 1) \sigma_1^2}{n s_Y^2 / (n - 1) \sigma_2^2}

FF(m1,n1)F \sim F(m-1, n-1)
其中 sX2,sY2s_X^2, s_Y^2 分别为样本 XiX_iYjY_j 的样本有偏方差
如果使用无偏方差,则可以记为

F=sX2/σ12sY2/σ22F = \frac{s_X^2 / \sigma_1^2}{s_Y^2 / \sigma_2^2}

同样 FF(m1,n1)F \sim F(m-1, n-1)

# t 分布

# 定义

对于自然数 nn,由

fn(x)=1nB(n2,12)1(1+x2/n)(n+1)/2,xRf_n(x) = \frac{1}{\sqrt{n} B\left(\frac{n}{2}, \frac{1}{2}\right)} \frac{1}{(1 + x^2 / n)^{(n+1)/2}},\quad x \in \mathbb R

给出的概率分布称为自由度 nnt 分布 (Student's t-Distribution)「t 分布」,记为 t(n)t(n)

注意:t 分布又称为斯图登特分布,以化名 Student 发表相关论文的威廉・西利・戈塞特命名

# 统计量制作

命题
XN(0,1)X \sim N(0,1)χ2χ2(n)\chi^2 \sim \chi^2(n)X,χ2X, \chi^2 独立,令

t=Xχ2/nt = \frac{X}{\sqrt{\chi^2 / n}}

tt(n)t \sim t(n)
特别地,令

t2=X2χ2/nt^2 = \frac{X^2}{\chi^2 / n}

t2F(1,n)t^2 \sim F(1,n)

一般地,从服从正态分布 N(μ,σ2)N(\mu, \sigma^2) 的总体中抽取 nn 个样本 X1,X2,,XnX_1, X_2, \ldots, X_n,令

t=Xnμs2/(n1)t = \frac{\overline X_n - \mu}{\sqrt{s^2 / (n-1)}}

tt(n1)t \sim t(n-1)
如果使用无偏方差,则可以记为

t=XnμS2/nt = \frac{\overline X_n - \mu}{\sqrt{S^2 / n}}

同样 tt(n1)t \sim t(n-1)