0x03 统计量分布

样本均值的分布

中心极限定理

从均值为μ\mu, 有限方差为σ2\sigma^2任意总体中抽取样本量为nn的样本, 当nn充分大时, 样本均值Xˉ\bar{X}的抽样分布近似服从均值为μ\mu, 方差为σ/n\sigma/n正态分布.

中心极限定理要求nn必须充分大, 实际应用中, 常要求n30n\ge30

样本比例的分布

总体中, 具有某一特征的比例为π\pi(真实值), 当从总体中随机抽取nn个个体, 符合这个特征的个体数量为XX, 则样本比例可以用p^=Xn\hat{p}=\frac{X}{n}来表示, 作为总体比例π\pi的估计.

每个个体的抽取相当于一个二项分布. 根据二项分布的期望方差的公式, 以及中心极限定理, 可以得到当nn充分大时, p^\hat{p}的分布可用正态分布去逼近, 此时满足p^N(π,π(1π)n)\hat{p}\sim N(\pi, \frac{\pi(1-\pi)}{n})

两个样本平均值之差的分布

从两个不同的总体中选出两个独立的随机样本, 它们的平均值Xˉ1\bar{X}_1Xˉ2\bar{X}_2之差的抽样分布是什么样子的呢?

假设两个总体分别是X1N(μ1,σ12)X_1\sim N(\mu_1,\sigma_1^2), X2N(μ2,σ22)X_2\sim N(\mu_2,\sigma_2^2), 样本的容量为n1n_1, n2n_2, 即都是正态分布, 则Xˉ1Xˉ2\bar{X}_1-\bar{X}_2也是正态分布, 且有:

E(Xˉ1Xˉ2)=μ1μ2E(\bar{X}_1-\bar{X}_2)=\mu_1-\mu_2

D(Xˉ1Xˉ2)=σ12n1+σ22n2D(\bar{X}_1-\bar{X}_2)=\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}

两个样本比例之差的分布

两个总体此时为参数为π1\pi_1π2\pi_2二项总体, 样本容量依然为n1n_1n2n_2. 当n1n_1n2n_2很大时, (p1p2)(p_1-p_2)的抽样分布近似于正态分布:

E(p^1p^2)=π1π2E(\hat{p}_1-\hat{p}_2)=\pi_1-\pi_2

D(p^1p^2)=π1(1π1)n1π2(1π2)n2D(\hat{p}_1-\hat{p}_2)=\frac{\pi_1(1-\pi_1)}{n_1}-\frac{\pi_2(1-\pi_2)}{n_2}

样本方差的分布

样本方差的分布就比较复杂了, 这里只说总体为正态分布的情况, 对于正态整体N(μ,σ2)N(\mu,\sigma^2), 样本方差S2S^2的分布为:

(n1)S2χ2(n1)(n-1)S^2\sim \chi^2(n-1)

即满足自由度为n1n-1的卡方分布.

两个样本方差比分布

同样要求两个样本都是正态分布, 即XN(μ1,σ12)X\sim N(\mu_1,\sigma_1^2), YN(μ2,σ22)Y\sim N(\mu_2,\sigma_2^2), 则有:

Sx2/σ12Sy2/σ22F(n11,n21)\frac{S^2_x/\sigma^2_1}{S^2_y/\sigma^2_2}\sim F(n_1-1,n_2-1)

即满足第一自由度为n11n_1-1, 第二自由度为n21n_2-1FF分布.

最后更新于