两个总体之间, 我们关心:
均值之差μ1−μ2
比例之差π1−π2
方差比σ12/σ22
两个总体均值之差的区间估计
独立样本
如果两个样本是从两个总体中独立抽取的, 即两个样本中的元素之间相互独立, 则称为独立样本.
大样本的估计
如果两个总体都为正态分布, 或者两个样本都是大样本, 则两个样本均值之差服从期望为μ1−μ2, 方差为n1σ12+n2σ22的正态分布, 因此在1−α置信水平下的置信区间为:
(xˉ1−xˉ2)±zα/2n1σ12+n2σ22
当两个总体的方差未知时, 在大样本的情况下可以使用样本方差s12和s22来代替, 此时的置信区间为:
(xˉ1−xˉ2)±zα/2n1s12+n2s22
小样本的估计
出于以下的假设, 对两个总体的均值之差做估计:
分为以下几种情况:
两个总体的方差未知但相等, 即σ12=σ22, 此时需要用两个样本的方差s12和s22来估计, 将两个样本的数据组合在一起, 给出新的总体方差的合并估计量:
sp2=n1+n2−2(n1−1)s12+(n2−1)s22
两个样本均值之差经过标准化后, 服从自由度为n1+n2−2的t分布:
t=spn11+n21(xˉ1−xˉ2)−(μ1−μ2)∼t(n1+n2−2)
因此两个总体均值之差μ1−μ2在1−α置信水平下的置信区间为:
(xˉ1−xˉ2)±tα/2(n1+n2−2)sp2(n11+n21)
两个总体的方差未知且不相等时. 两个样本均值之差经过标准化后近似服从自由度为v的t分布, 其中自由度v的计算公式为:
v=n1−1(s12/n1)n2−1(s22/n2)(n1s12+n2s22)2
因此置信区间为:
(xˉ1−xˉ2)±tα/2(v)n1s12+n2s22
匹配样本
上面是两个样本是来自于两个总体, 是完全独立的. 而匹配样本中的两个样本的采样是有关联性的.
大样本
在大样本条件下, 两个总体均值之差μd=μ1−μ2在1−α的置信水平下的置信区间为:
dˉ±zα/2nσd
d表示两个匹配样本对应数据的差值, dˉ表示各差值的均值, σd表示各差值的标准差, 总体的σd未知时, 可用样本差值的标准差sd代替.
小样本
小样本情况下, 假定两个总体各观测值的配对差服从正态分布, 则总体均值之差μd=μ1−μ2在1−α的置信水平下的置信区间为:
dˉ±tα/2(n−1)nsd
两个总体比例之差的区间估计
两个样本比例之差的抽样分布服从正态分布, 经过标准化后服从标准正态分布:
Z=n1π1(1−π1)+n2π2(1−π2)(p1−p2−(π1−π2))∼N(0,1)
则两个总体比例之差π1−π2在1−α置信水平下的置信区间为:
(p1−p2)±zα/2n1p1(1−p1)+n2p2(1−p2)
上式中使用样本比例p来代替未知的总体比例π.
两个总体方差比的区间估计
一般在比较稳定性, 精度时会使用到方差比进行比较.
两个样本方差比的抽样分布服从F(n1−1,n2−1)分布, 因此可以用F分布来构造方差比的置信区间, 即找到满足下面条件的F值:
F1−α/2≤F≤Fα/2
根据之前得到的方差比的抽样分布, 有s22s12σ12σ22∼F(n1−1,n2−1), 用左侧来代替上式中的F值, 得到:
F1−α/2≤s22s12σ12σ22≤Fα/2
因此得到两个总体的方差比σ22σ12在1−α置信水平下的置信区间为:
Fα/2s12/s22≤σ22σ12≤F1−α/2s12/s22