分布种类
抽样分布
在总体X的分布类型已知时, 对任一自然数n, 都能显式地推导出统计量T=T(X1,X2,⋯,Xn)分布的数学表达式, 把这种统计量分布称为精确的抽样分布.
精确的抽样分布大多是在总体为正态分布的情况下得到的, 对于样本量较小的统计推断问题非常有用.
统计三大分布, 就是在总体为正态分布的情况下, 得到的抽样分布:
渐进分布
借助极限工具, 寻求在样本量n无限增大时, 统计量T=T(X1,X2,⋯,Xn)的极限分布, 这种极限分布作为抽样分布的一种近似, 称为渐进分布.
这在精确的抽样分布难以求得时有着很大的作用.
例如中心极限定理中, 统计量样本均值Xˉ的分布就是一种渐进分布, 在统计学中有着重要的地位.
随机模拟获得的近视分布
很多问题的抽样分布和渐进分布都是难以求得的, 使用计算机进行随机模拟来获得某种统计量的近似分布.
由正态分布导出的重要分布
自由度可以解释为独立变量的格式, 或二次型的秩.
有如下的性质:
有以下性质:
随机变量X1,X2,⋯,Xn相互对立, 且Xi(i=1,2,⋯,n)服从标准正态分布N(0,1), 则它们的平方和i=1∑nXi2服从自由度为n的χ2分布.
数学期望: E(χ2)=n
方差: D(χ2)=2n
可加性: 若χ12∼χ2(n1) χ22∼χ2(n2), 且两者独立, 则有χ12+χ22=χ2(n1+n2)
当自由度增加到足够大时, χ2分布的概率密度函数曲线趋于对称, 且当n趋于无穷时, χ2分布的极限分布是正态分布.
χ2(n)的p分位数χp2(n)可以查卡方分布表获得. p分位数χp2(n)指的是, 累计密度达到百分比p时对应的χp2(n), 而这是一个坐标值x.
当自由度很大时(n>45), 2χ2(n)近视服从于N(2n−1,1), χp2(n)≈21(μp+2n−1)2, 其中μp即为zp, 即正态分布的p分位数, 因此卡方分布的分位数可以转换为计算正态分布的分位数获得.
设随机变量X∼N(0,1), Y∼χ2(n), 且两者独立, 则构筑一个新的随机变量t=T/nX, 其分布称为t分布, 记为t(n), 其中n为自由度. t分布的概率密度函数是偶函数.
当n≥2时, E(t)=0
当n≥3时, D(t)=n−2n
t分布的概率密度函数与标准正态分布相比, 曲线非常相似, 都是单峰偶函数, 只是t的概率密度函数在两侧的尾部要比标准正态分布的两侧尾部粗一些, 且t分布的方差大一些
随着自由度n的增加, t分布的概率密度函数越来越接近标准正态分布的密度概率函数. 实际应用中, 当n≥30时, 两者就会非常的接近.
设X1,X2,⋯,Xn是来自正态分布N(μ,σ2)的一个样本, Xˉ=n1i=1∑nXi, S2=n−11i=1∑n(Xi−Xˉ)2, 则:
Sn(Xˉ−μ)∼t(n−1)
即由统计量Xˉ和S构造的上面的随机变量, 服从于自由度为n−1的t分布. 自由度为n−1是因为Xˉ是固定的, 少了一个自由度.
Xˉ∼N(μ,nσ2), 根据t分布的定义, 将其转为标准正态分布即σn(Xˉ−μ)∼N(0,1), 对S也进行标准化, 得到σS2∼N(0,1), 因此按照t分布的构造公式, 就能得到上面的结果.
X和Y相互独立, X∼N(μ1,σ2), Y∼N(μ2,σ2), X1,X2,⋯,Xn是来自X的一个样本, Y1,Y2,⋯,Ym是来自Y的一个样本, 记:
Xˉ=n1i=1∑nXi
Yˉ=m1i=1∑mYi
Sx2=n−11i=1∑n(Xi−Xˉ)2
Sy2=m−11i=1∑m(Yi−Yˉ)2
Sxy2=n+m−2(n−1)Sx2+(m−1)Sy2
则有m+nmnSxy2(Xˉ−Yˉ)−(μ1−μ2)∼t(n+m−2)
设随机变量Y与Z相互独立, 且Y和Z分别服从自由度为m和n的χ2分布, 构造随机变量X=Z/nY/m=mZnY, 称X服从第一自由度为m, 第二自由度为n的F分布, 记为X∼F(m,n).
E(X)=n−2n,n>2
D(X)=m(n−2)(n−4)2n2(m+n−2),n>4
F分布的p分位数Fp(v1,v2)可查F分布表获得, 且Fp(v1,v2)=F1−p(v2,v1)1
F分布和t分布的关系: 随机变量X服从t(n)分布, 则X2服从F(1,n)的F分布, 这在回归分析的回归系数显著性检验中有用