0x03 两个总体参数的区间估计

两个总体之间, 我们关心:

  • 均值之差μ1μ2\mu_1-\mu_2

  • 比例之差π1π2\pi_1-\pi_2

  • 方差比σ12/σ22\sigma^2_1/\sigma^2_2

两个总体均值之差的区间估计

独立样本

如果两个样本是从两个总体中独立抽取的, 即两个样本中的元素之间相互独立, 则称为独立样本.

大样本的估计

如果两个总体都为正态分布, 或者两个样本都是大样本, 则两个样本均值之差服从期望为μ1μ2\mu_1-\mu_2, 方差为σ12n1+σ22n2\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}的正态分布, 因此在1α1-\alpha置信水平下的置信区间为:

(xˉ1xˉ2)±zα/2σ12n1+σ22n2(\bar{x}_1-\bar{x}_2)\pm z_{\alpha/2}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}

当两个总体的方差未知时, 在大样本的情况下可以使用样本方差s12s^2_1s22s^2_2来代替, 此时的置信区间为:

(xˉ1xˉ2)±zα/2s12n1+s22n2(\bar{x}_1-\bar{x}_2)\pm z_{\alpha/2}\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}

小样本的估计

出于以下的假设, 对两个总体的均值之差做估计:

  • 两个总体都服从正态分布

  • 两个随机样本独立地分别抽自两个总体

分为以下几种情况:

  1. 两个总体的方差未知但相等, 即σ12=σ22\sigma^2_1=\sigma^2_2, 此时需要用两个样本的方差s12s^2_1s22s^2_2来估计, 将两个样本的数据组合在一起, 给出新的总体方差的合并估计量:

    sp2=(n11)s12+(n21)s22n1+n22s^2_p=\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2}

    两个样本均值之差经过标准化后, 服从自由度为n1+n22n_1+n_2-2tt分布:

    t=(xˉ1xˉ2)(μ1μ2)sp1n1+1n2t(n1+n22)t=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)

    因此两个总体均值之差μ1μ2\mu_1-\mu_21α1-\alpha置信水平下的置信区间为:

    (xˉ1xˉ2)±tα/2(n1+n22)sp2(1n1+1n2)(\bar{x}_1-\bar{x}_2)\pm t_{\alpha/2}(n_1+n_2-2)\sqrt{s^2_p(\frac{1}{n_1}+\frac{1}{n_2})}

  2. 两个总体的方差未知且不相等时. 两个样本均值之差经过标准化后近似服从自由度为vvtt分布, 其中自由度vv的计算公式为:

    v=(s12n1+s22n2)2(s12/n1)n11(s22/n2)n21\begin{aligned}v=\frac{(\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2})^2}{\frac{(s^2_1/n_1)}{n_1-1}\frac{(s^2_2/n_2)}{n_2-1}}\end{aligned}

    因此置信区间为:

    (xˉ1xˉ2)±tα/2(v)s12n1+s22n2(\bar{x}_1-\bar{x}_2)\pm t_{\alpha/2}(v)\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}

匹配样本

上面是两个样本是来自于两个总体, 是完全独立的. 而匹配样本中的两个样本的采样是有关联性的.

大样本

在大样本条件下, 两个总体均值之差μd=μ1μ2\mu_d=\mu_1-\mu_21α1-\alpha的置信水平下的置信区间为:

dˉ±zα/2σdn\bar{d}\pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}}

dd表示两个匹配样本对应数据的差值, dˉ\bar{d}表示各差值的均值, σd\sigma_d表示各差值的标准差, 总体的σd\sigma_d未知时, 可用样本差值的标准差sds_d代替.

小样本

小样本情况下, 假定两个总体各观测值的配对差服从正态分布, 则总体均值之差μd=μ1μ2\mu_d=\mu_1-\mu_21α1-\alpha的置信水平下的置信区间为:

dˉ±tα/2(n1)sdn\bar{d}\pm t_{\alpha/2}(n-1)\frac{s_d}{\sqrt{n}}

两个总体比例之差的区间估计

两个样本比例之差的抽样分布服从正态分布, 经过标准化后服从标准正态分布:

Z=(p1p2(π1π2))π1(1π1)n1+π2(1π2)n2N(0,1)Z=\frac{(p_1-p_2-(\pi_1-\pi_2))}{\sqrt{\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2}}} \sim N(0,1)

则两个总体比例之差π1π2\pi_1-\pi_21α1-\alpha置信水平下的置信区间为:

(p1p2)±zα/2p1(1p1)n1+p2(1p2)n2(p_1-p_2) \pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}

上式中使用样本比例pp来代替未知的总体比例π\pi.

两个总体方差比的区间估计

一般在比较稳定性, 精度时会使用到方差比进行比较.

两个样本方差比的抽样分布服从F(n11,n21)F(n_1-1,n_2-1)分布, 因此可以用FF分布来构造方差比的置信区间, 即找到满足下面条件的FF值:

F1α/2FFα/2F_{1-\alpha/2} \le F \le F_{\alpha/2}

根据之前得到的方差比的抽样分布, 有s12s22σ22σ12F(n11,n21)\frac{s^2_1}{s^2_2}\frac{\sigma^2_2}{\sigma^2_1} \sim F(n_1-1,n_2-1), 用左侧来代替上式中的FF值, 得到:

F1α/2s12s22σ22σ12Fα/2F_{1-\alpha/2} \le \frac{s^2_1}{s^2_2}\frac{\sigma^2_2}{\sigma^2_1} \le F_{\alpha/2}

因此得到两个总体的方差比σ12σ22\frac{\sigma^2_1}{\sigma^2_2}1α1-\alpha置信水平下的置信区间为:

s12/s22Fα/2σ12σ22s12/s22F1α/2\frac{s^2_1/s^2_2}{F_{\alpha/2}} \le \frac{\sigma^2_1}{\sigma^2_2} \le \frac{s^2_1/s^2_2}{F_{1-\alpha/2}}

最后更新于

这有帮助吗?