0x02 单因素方差分析

单因素方差分析(one-way analysis of variance, one-way ANOVA), 当方差分析中只涉及一个分类型自变量时, 称为单因素方差分析.

数据结构

AA表示因素, 因素的kk个水平, 分别用A1,A2,,AkA_1,A_2,\cdots,A_k表示, 每个观测值用xijx_{ij}表示, 代表第ii个水平的第jj个观测值. 不同水平中抽取的样本量可以相等, 也可以不相等.

分析步骤

  1. 提出假设

    原假设为检验因素的kk个水平的均值相等, 即自变量对因变量没有显著影响.

    H0:μ1=μ2==μkH_0: \mu_1=\mu_2=\cdots=\mu_k, 自变量对因变量没有显著影响

    H1:μ1,μ2,,μkH_1: \mu_1,\mu_2,\cdots,\mu_k不全相等, 自变量对因变量有显著影响

  2. 构造检验的统计量

    1. 计算各样本的均值

      xˉi\bar{x}_i为第ii个水平总体的样本均值

    2. 计算全部观测值的总均值

      xˉˉ\bar{\bar{x}}为全部观测值的总和除以观测值总个数的结果

    3. 计算各误差平方和

      • SST: 总平方和

        它是全部观测值xijx_{ij}与总均值xˉˉ\bar{\bar{x}}的误差平方和:

        SST=i=1kj=1ni(xijxˉˉ)2SST=\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-\bar{\bar{x}})^2

      • SSA: 组间平方和

        它是各组均值xˉi\bar{x}_i与总均值xˉˉ\bar{\bar{x}}的误差平方和, 反映了各样本均值之间的差异程度, 因此又称为因素平方和:

        SSA=i=1kni(xˉixˉˉ)2SSA=\sum\limits_{i=1}^kn_i(\bar{x}_i-\bar{\bar{x}})^2

      • SSE: 组内平方和

        它是每个水平或组的各样本数据与其组均值的误差平方和, 反映了各个样本各观测值的离散状况:

        SSE=i=1kj=1ni(xijxˉi)2SSE=\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2

      三个平方和之间的关系为, 从公式中也能体现出这一点, 下面等式的两侧是恒等的:

      SST=SSA+SSESST=SSA+SSE

      因此可以看出:

      • SSA是对随机误差系统误差大小的度量, 反映了自变量因变量的影响, 因此也称为自变量效应因子效应

      • SSE是对随机误差大小的度量, 反映了除自变量对因变量的影响之外, 其他因素对因变量的总影响, 因此也称为残差效应

      • SST是对全部数据总误差程度的度量, 反映了自变量和残差变量的共同影响, 因此等于自变量效应加残差效应

    4. 计算统计量

      为了消除观测值多少对误差平方和大小的影响, 需要将其平均, 也就是用个平方和除以他们所对应的自由度, 把这一结果称为均方(mean square), 也称为方差(注意这里方差的定义). 三个平方和对应的自由度分别为:

      • SST: 自由度为n1n-1, nn为全部观测值的个数

      • SSA: 自由度为k1k-1, kk为因素中水平的个数

      • SSE: 自由度为nkn-k

      由于要比较的是组间均方组内均方之间的差异, 因此通常只计算SSA的均方和SSE的均方:

      • SSA的均方称为组间均方组间方差, 记为MSA=SSAk1MSA=\frac{SSA}{k-1}

      • SSA的均方称为组内均方组内方差, 记为MSE=SSEnkMSE=\frac{SSE}{n-k}

      将MSA与MSE进行对比, 就得到了所需要的检验统计量FF. 当H0H_0为真时, FF服从F(k1,nk)F(k-1,n-k)分布, 即有:

      F=MSAMSEF(k1,nk)F=\frac{MSA}{MSE} \sim F(k-1,n-k)

  3. 统计决策

    将统计量FF的值与给定的显著性水平α\alpha的临界值FαF_{\alpha}进行比较, 从而做出对原假设H0H_0的决策. 当F>FαF \gt F_{\alpha}时, 应当拒绝原假设H0H_0, 说明自变量与因变量之间的关系时显著的.

    注意: 当被检验的因素只有两个水平时, 单因素方差分析与两个独立样本均值之差的tt检验的结果完全相同, 这是因为当因素的水平k=2k=2时, 检验的tt统计量与FF统计量的关系为F=t2F=t^2, 这是由两个统计量分别服从的分布所共同拥有的性质决定的.

关系强度的测量

组间平方和组内平方和大, 且大到一定程度时, 就意味着两个变量之间的关系显著, 大的越多, 表示它们之间的关系越强, 反之就越弱.

因此, 可以用组间平方和SSA总平方和SST比例大小来反映关系的强度, 记这个比例为R2R^2:

R2=SSASSTR^2=\frac{SSA}{SST}

其平方根RR就可以用来测量两个变量之间的关系强度.

注意: 在回归中也有的R2R^2, 那里将其定义为判定系数, 其平方根定义为相关系数, 因此与这里有着相似的作用.

多重比较方法

通过上面的检验发现了两个变量之间的关系, 具体来说就是自变量中不同的水平, 对应的总体的均值之间不相等. 但到底是哪两个水平之间的均值不同, 进行这种检验的方法就是多重比较方法, 通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异.

这里使用的多重比较方法为最小显著差异方法(least significant difference, LSD), 具体步骤为:

  • 提出假设H0:μi=μjH_0: \mu_i = \mu_j

  • 计算检验统计量: xˉixˉj\bar{x}_i-\bar{x}_j

  • 计算LSD统计量, 公式为: LSD=tα/2MSE(1ni+1nj)LSD=t_{\alpha/2}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}

    其中tα/2t_{\alpha/2}tt分布的临界值, 通过查tt分布表获得, 其自由度nkn-k, 这里的kk是因素中水平的个数(而不是2); MSE为组内方差, nin_injn_j分别是第ii个样本和第jj个样本的样本量.

  • 根据显著性水平α\alpha做出决策: 如果xˉixˉj>LSD|\bar{x}_i-\bar{x}_j| \gt LSD, 拒绝H0H_0, 认为这两个水平对应的总体之间的均值差异是显著的

最后更新于