0x01 方差分析基础

方差分析

从形式上看, 方差分析是比较多个总体的均值是否相等, 本质研究的是变量之间的关系. 具体来说, 方差分析研究的是分类型自变量与数值型因变量之间的关系, 因此对应于回归问题, 但与回归分析方法又有不同.

方差分析(analysis of variance, ANOVA)表面上看, 是检验多个总体的均值是否相等的方法, 但本质上所研究的是分类型自变量对数值型因变量的影响, 通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响.

这种影响体现在:

从以下的角度判断是否存在相关关系: 使用分类型自变量将所有的样本分成若干个总体, 总体的数量与这个自变量类型的数量相等, 如果所有的总体, 它们的均值相等, 意味着这个自变量对数值型因变量是没有影响的; 如果均值不全相等, 则意味着有影响.

首先定义方差分析中的相关概念. 借用如下的例子.

对几个行业的服务质量进行评价, 在零售业, 旅游业, 航空公司, 家电制造业分别抽取了不同企业作为样本, 每个行业都抽取若干个企业, 不同行业抽取的数量可能不同, 抽取的内容为这家公司在一年中被投诉的次数, 结果如下表:

零售业

旅游业

航空公司

家电制造业

综合以上, 这是一个单因素4水平的试验.

之所以叫方差分析, 是因为虽然感兴趣的是均值, 但判断均值之间是否有差异时需要借助于方差, 这是因为它是通过对数据误差来源的分析来判断不同总体的均值是否相等, 进而分析自变量对因变量是否有显著影响.

组内误差: 来自于水平内部的数据误差称为组内误差, 反映了一个样本内部数据的离散程度. 组内误差只含有随机误差
组间误差: 来自于不同水平之间的数据误差称为组间误差, 来源可能是:
- 由抽样本身形成的随机误差
- 由因素本身的系统性因素造成的系统误差
因此, 组间误差就是随机误差和系统误差的总和.

在方差分析中, 数据误差使用平方和这种形式来表示的, 因此有以下定义:

如果某个因素对最后的因变量没有影响, 那么这个因素的组间误差中只包含随机误差, 不包含系统误差. 此时组间误差与组内误差经过平均后的数值(称为均方或方差)就应该很接近, 它们的比值应该很接近于1.

否则, 如果是因素对因变量有影响, 则组间误差中应当包含系统误差, 会导致组间误差平均之后的数值就会大于组内误差平均后的数值, 它们之间的比值就会大于1.

当这个比值大到某种程度时, 就认为因素的不同水平之间存在着显著的差异, 即自变量对因变量有显著影响.

方差分析中有三个基本假定:

假设因素有 $k$ 个水平, 每个水平的均值分别用 $\mu_1,\mu_2,\cdots,\mu_k$ 表示, 要检验 $k$ 个水平总体的均值是否相等, 因此作出以下的假设:

$H_0: \mu_1=\mu_2=\cdots=\mu_k$ , 自变量对因变量没有显著影响

$H_1: \mu_1,\mu_2,\cdots,\mu_k$ 不全相等, 自变量对因变量有显著影响

最后更新于5年前