0x01 统计量

概念

假设X1X2,,XnX_1X_2,\cdots,X_n是从总体XX中抽取的容量为nn的一个样本, 如果由此构造的一个函数T(X1X2,,Xn)T(X_1X_2,\cdots,X_n), 不依赖与任何未知参数, 则称函数T(X1X2,,Xn)T(X_1X_2,\cdots,X_n)是一个统计量, 准确的说是样本统计量.

当获取到样本的一组具体观测值x1,x2,,xnx_1,x_2,\cdots,x_n时, T(x1,x2,,xn)T(x_1,x_2,\cdots,x_n)就是一个具体的统计量的值.

例如, 以下函数是统计量:

  • Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i

  • S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2

以下函数不是统计量, 因为期望E(X)E(X)和方差D(X)D(X)都是依赖于总体分布的未知参数:

  • i=1n[XiE(X)]2\sum\limits_{i=1}^{n}[X_i-E(X)]^2

  • [XiE(X)]/D(X)[X_i-E(X)]/D(X)

意义

统计量是样本的一个函数.

统计量实际上是对样本所含的总体信息按照某种规则进行加工处理, 把分散在样本中的信息集中到统计量的树枝上.

不同的统计推断问题, 需要构造不同的统计量. 因此统计量是统计推断的基础.

常用统计量

  • Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i: 样本均值, 反应总体XX的数学期望

  • S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2: 样本方差, 反应总体XX的方差, SS即为样本标准差

  • V=S/XˉV=S/\bar{X}: 样本变异系数, 反应总体变异系数C=D(X)/E(X)C=\sqrt{D(X)}/E(X), 而CC反应出随机变量XX的离散程度. 此统计量消除了均值不同对不同总体的离散程度的影响, 常用来刻画均值不同时, 不同样本的离散程度

  • mk=1ni=1nXikm_k=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^k: 样本kk阶矩. m1=Xˉm_1=\bar{X}

  • vk=1n1i=1n(XiXˉ)kv_k=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^k: 样本kk阶中心矩. v2=S2v_2=S^2

  • α3=n1i=1n(XiXˉ)3/[i=1n(XiXˉ)2]3/2\alpha_3=\sqrt{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^3/[\sum\limits_{i=1}^{n}(X_i-\bar{X})^2]^{3/2}: 样本偏度. 反映了随机变量的密度函数曲线众数(密度函数在这一点有最大值)两边的对称偏斜性. 服从正态分布的随机变量的偏度为0

  • α4=(n1)i=1n(XiXˉ)4/[i=1n(XiXˉ)2]23\alpha_4=(n-1)\sum\limits_{i=1}^{n}(X_i-\bar{X})^4/[\sum\limits_{i=1}^{n}(X_i-\bar{X})^2]^{2}-3: 样本峰度. 反应了密度函数曲线的众数附近的尖峭程度. 正态分布的峰度为0.

最后更新于