0x02 分布

分布种类

抽样分布

在总体XX的分布类型已知时, 对任一自然数nn, 都能显式地推导出统计量T=T(X1,X2,,Xn)T=T(X_1,X_2,\cdots,X_n)分布的数学表达式, 把这种统计量分布称为精确的抽样分布.

精确的抽样分布大多是在总体为正态分布的情况下得到的, 对于样本量较小的统计推断问题非常有用.

统计三大分布, 就是在总体为正态分布的情况下, 得到的抽样分布:

  • χ2\chi^2分布

  • tt分布

  • FF分布

渐进分布

借助极限工具, 寻求在样本量nn无限增大时, 统计量T=T(X1,X2,,Xn)T=T(X_1,X_2,\cdots,X_n)极限分布, 这种极限分布作为抽样分布的一种近似, 称为渐进分布.

这在精确的抽样分布难以求得时有着很大的作用.

例如中心极限定理中, 统计量样本均值Xˉ\bar{X}的分布就是一种渐进分布, 在统计学中有着重要的地位.

随机模拟获得的近视分布

很多问题的抽样分布和渐进分布都是难以求得的, 使用计算机进行随机模拟来获得某种统计量的近似分布.

由正态分布导出的重要分布

χ2\chi2分布

随机变量X1,X2,,XnX_1,X_2,\cdots,X_n相互对立, 且Xi(i=1,2,,n)X_i(i=1,2,\cdots,n)服从标准正态分布N(0,1)N(0,1), 则它们的平方和i=1nXi2\sum\limits_{i=1}^{n}X_i^2服从自由度为nnχ2\chi^2分布.

自由度可以解释为独立变量的格式, 或二次型的秩.

χ2\chi^2分布有如下的性质:

  • 数学期望: E(χ2)=nE(\chi^2)=n

  • 方差: D(χ2)=2nD(\chi^2)=2n

  • 可加性: 若χ12χ2(n1)\chi^2_1\sim\chi^2(n_1) χ22χ2(n2)\chi^2_2\sim\chi^2(n_2), 且两者独立, 则有χ12+χ22=χ2(n1+n2)\chi^2_1+\chi^2_2=\chi^2(n_1+n_2)

  • 当自由度增加到足够大时, χ2\chi^2分布的概率密度函数曲线趋于对称, 且当nn趋于无穷时, χ2\chi^2分布的极限分布是正态分布.

χ2\chi^2分布于正态分布

χ2(n)\chi^2(n)pp分位数χp2(n)\chi^2_p(n)可以查卡方分布表获得. pp分位数χp2(n)\chi^2_p(n)指的是, 累计密度达到百分比pp时对应的χp2(n)\chi^2_p(n), 而这是一个坐标值xx.

当自由度很大时(n>45n>45), 2χ2(n)\sqrt{2\chi^2(n)}近视服从于N(2n1,1)N(\sqrt{2n-1},1), χp2(n)12(μp+2n1)2\chi^2_p(n)\approx{\frac{1}{2}(\mu_p+\sqrt{2n-1})^2}, 其中μp\mu_p即为zpz_p, 即正态分布的pp分位数, 因此卡方分布的分位数可以转换为计算正态分布的分位数获得.

tt分布

tt分布也称为学生氏分布.

设随机变量XN(0,1)X\sim N(0,1), Yχ2(n)Y\sim \chi^2(n), 且两者独立, 则构筑一个新的随机变量t=XT/nt=\frac{X}{\sqrt{T/n}}, 其分布称为tt分布, 记为t(n)t(n), 其中nn为自由度. tt分布的概率密度函数是偶函数.

有如下的性质:

  • n2n\ge{2}时, E(t)=0E(t)=0

  • n3n\ge{3}时, D(t)=nn2D(t)=\frac{n}{n-2}

  • tt分布的概率密度函数与标准正态分布相比, 曲线非常相似, 都是单峰偶函数, 只是tt的概率密度函数在两侧的尾部要比标准正态分布的两侧尾部粗一些, 且tt分布的方差大一些

  • 随着自由度nn的增加, tt分布的概率密度函数越来越接近标准正态分布的密度概率函数. 实际应用中, 当n30n\ge{30}时, 两者就会非常的接近.

  • 自由度为1的tt分布称为柯西分布

  • tt分布对于中小样本有着重要的作用

tt分布的应用

  • 单个随机变量

    X1,X2,,XnX_1,X_2,\cdots,X_n是来自正态分布N(μ,σ2)N(\mu,\sigma^2)的一个样本, Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i, S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2, 则:

    n(Xˉμ)St(n1)\frac{\sqrt{n}(\bar{X}-\mu)}{S}\sim t(n-1)

    即由统计量Xˉ\bar{X}SS构造的上面的随机变量, 服从于自由度为n1n-1tt分布. 自由度为n1n-1是因为Xˉ\bar{X}是固定的, 少了一个自由度.

    推导如下:

    XˉN(μ,σ2n)\bar{X}\sim N(\mu, \frac{\sigma^2}{n}), 根据tt分布的定义, 将其转为标准正态分布即n(Xˉμ)σN(0,1)\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}\sim N(0,1), 对SS也进行标准化, 得到S2σN(0,1)\frac{S^2}{\sigma}\sim N(0,1), 因此按照tt分布的构造公式, 就能得到上面的结果.

  • 两个随机变量

    XXYY相互独立, XN(μ1,σ2)X\sim N(\mu_1,\sigma^2), YN(μ2,σ2)Y\sim N(\mu_2,\sigma^2), X1,X2,,XnX_1,X_2,\cdots,X_n是来自XX的一个样本, Y1,Y2,,YmY_1,Y_2,\cdots,Y_m是来自YY的一个样本, 记:

    Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i

    Yˉ=1mi=1mYi\bar{Y}=\frac{1}{m}\sum\limits_{i=1}^{m}Y_i

    Sx2=1n1i=1n(XiXˉ)2S^2_x=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2

    Sy2=1m1i=1m(YiYˉ)2S^2_y=\frac{1}{m-1}\sum\limits_{i=1}^{m}(Y_i-\bar{Y})^2

    Sxy2=(n1)Sx2+(m1)Sy2n+m2S^2_{xy}=\frac{(n-1)S^2_x+(m-1)S^2_y}{n+m-2}

    则有mnm+n(XˉYˉ)(μ1μ2)Sxy2t(n+m2)\sqrt{\frac{mn}{m+n}}\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S^2_{xy}}\sim t(n+m-2)

FF分布

FF分布主要应用在:

  • 方差分析

  • 回归方程的显著性校验

设随机变量YYZZ相互独立, 且YYZZ分别服从自由度为mmnnχ2\chi^2分布, 构造随机变量X=Y/mZ/n=nYmZX=\frac{Y/m}{Z/n}=\frac{nY}{mZ}, 称XX服从第一自由度为mm, 第二自由度为nnFF分布, 记为XF(m,n)X\sim F(m,n).

有以下性质:

  • E(X)=nn2,n>2E(X)=\frac{n}{n-2},\quad n\gt2

  • D(X)=2n2(m+n2)m(n2)(n4),n>4D(X)=\frac{2n^2(m+n-2)}{m(n-2)(n-4)},\quad n\gt4

  • FF分布的pp分位数Fp(v1,v2)F_p(v_1,v_2)可查FF分布表获得, 且Fp(v1,v2)=1F1p(v2,v1)F_p(v_1,v_2)=\frac{1}{F_{1-p}(v_2,v_1)}

  • FF分布和tt分布的关系: 随机变量XX服从t(n)t(n)分布, 则X2X^2服从F(1,n)F(1,n)FF分布, 这在回归分析的回归系数显著性检验中有用

最后更新于

这有帮助吗?