0x01 参数估计基本原理

参数估计

参数估计就是用样本统计量去估计总体分布的参数. 如用样本均值xˉ\bar{x}去估计总体均值μ\mu, 用样本比例p^\hat{p}去估计总计比例π\pi等. 可以将用于估计的统计量记为θ^\hat{\theta}, 而总体分布的真实参数为θ\theta, 则参数估计就是用θ^\hat{\theta}去估计θ\theta的方法.

这个用来估计总体参数的统计量, 也被称为估计量(estimator), 具体到一个样本计算出来的估计量的数值称为估计值(estimated value).

参数估计方法

点估计

用样本统计量θ^\hat{\theta}某个取值直接作为总体参数θ\theta的估计值. 由于样本时随机的, 抽出的一个具体样本得到的估计值很可能不同于总体值, 但点估计的方法无法给出点估计值和总体参数的真实值接近程度的度量.

区间估计

这就是熟悉的置信区间的方法.

区间估计就是在点估计的基础上, 给出总体参数估计的一个区间范围, 即给出的不是一个值, 而是一个区间范围, 这个区间通常由样本统计量加减估计误差得到. 能够给出与总体参数的接近程度的度量.

以对总体均值的估计为例. 在样本量nn较大的情况下, 样本均值的数学期望等于总体均值, 即E(xˉ)=μE(\bar{x})=\mu, 样本均值的标准误差为σxˉ=σ/n\sigma_{\bar{x}}=\sigma/\sqrt{n}. 样本均值xˉ\bar{x}落在总体均值μ\mu两侧一个标准差范围内的概率为0.6827, 两个标准差范围内的概率为0.9545, 三个标准差范围内的概率为0.9973.

但实际中, 样本均值xˉ\bar{x}是已知的, 总体均值μ\mu是未知的, 但由于xˉ\bar{x}μ\mu的距离是对称的, 如果xˉ\bar{x}落在μ\mu的两个标准差范围内, 则μ\mu也一定落在以xˉ\bar{x}为中心的两个标准差范围内. 因此可以这样说:

如果抽取100个样本来估计总体的均值, 每个样本都会给出一个估计区间, 而着100个样本产生的100个区间中, 如果使用两倍标准差产生这个区间, 则约有95个区间包含总体均值.

因此在区间估计中, 由样本统计量所构造的总体参数的估计区间称为置信区间(confidence interval), 置信区间中包含总体参数真值的次数所占的比例称为置信度/置信水平, 用α\alpha来表示, 对应的zz值记为zαz_{\alpha}(单侧)或zα/2z_{\alpha/2}(双侧), 这个值即为区间宽度的系数, 置信区间的宽度即为zz值乘以样本标准差.

  • 我们无法获知这个样本所产生的置信区间是否包含总体参数的真值.

  • 真值要么包含在这个样本产生的置信区间中, 要么不在其中, 二选一, 并不是一个概率问题, 而置信度也不是一种信心概率的表现

  • 置信度的真正含义就是: 在多次抽样中, 得到的所有区间中, 大概有多少个区间包含了总体参数的真值.

评价估计量的标准

无偏性

指的是估计量的抽样分布的数学期望等于被估计的总体参数. 满足此条的估计量被称为无偏估计量/无偏统计量.

有效性

对同一个总体参数的两个无偏估计量, 有更小标准差的估计量更有效.

一致性

随着样本量的增大, 估计量的值越来越接近被估计总体的参数.

最后更新于