0x01 方差分析基础

方差分析

从形式上看, 方差分析是比较多个总体的均值是否相等, 本质研究的是变量之间的关系. 具体来说, 方差分析研究的是分类型自变量数值型因变量之间的关系, 因此对应于回归问题, 但与回归分析方法又有不同.

方差分析(analysis of variance, ANOVA)表面上看, 是检验多个总体的均值是否相等的方法, 但本质上所研究的是分类型自变量对数值型因变量的影响, 通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响.

这种影响体现在:

  • 变量之间有没有相关关系

  • 相关关系的强度如何

从以下的角度判断是否存在相关关系: 使用分类型自变量将所有的样本分成若干个总体, 总体的数量与这个自变量类型的数量相等, 如果所有的总体, 它们的均值相等, 意味着这个自变量对数值型因变量是没有影响的; 如果均值不全相等, 则意味着有影响.

首先定义方差分析中的相关概念. 借用如下的例子.

对几个行业的服务质量进行评价, 在零售业, 旅游业, 航空公司, 家电制造业分别抽取了不同企业作为样本, 每个行业都抽取若干个企业, 不同行业抽取的数量可能不同, 抽取的内容为这家公司在一年中被投诉的次数, 结果如下表:

零售业

旅游业

航空公司

家电制造业

57

68

31

44

66

39

49

51

49

29

21

65

40

45

34

77

34

56

40

58

53

51

44

  • 因素/因子: 在方差分析中, 要检验的自变量对象称为因素或因子. 在这个例子中就是行业变量

  • 水平/处理: 因素中的不同表现称为水平或处理, 就是自变量中每个可能的取值. 在这个例子中对应的是这四种行业

  • 观测值: 每个因子水平下得到的样本数据

综合以上, 这是一个单因素4水平的试验.

方差分析的基本思想和原理

误差分解

之所以叫方差分析, 是因为虽然感兴趣的是均值, 但判断均值之间是否有差异时需要借助于方差, 这是因为它是通过对数据误差来源的分析来判断不同总体的均值是否相等, 进而分析自变量对因变量是否有显著影响.

  • 组内误差: 来自于水平内部的数据误差称为组内误差, 反映了一个样本内部数据的离散程度. 组内误差只含有随机误差

  • 组间误差: 来自于不同水平之间的数据误差称为组间误差, 来源可能是:

    • 由抽样本身形成的随机误差

    • 由因素本身的系统性因素造成的系统误差

    因此, 组间误差就是随机误差系统误差总和.

在方差分析中, 数据误差使用平方和这种形式来表示的, 因此有以下定义:

  • SST(总平方和): 反映全部数据误差大小的平方和, 反映了全部观测值的离散状况

  • SSE(误差平方和/残差平方和): 反映组内误差大小的平方和, 反映了每个样本内各观测值的离散状况

  • SSA(因素平方和): 反映组间误差大小的平方和, 反映了样本均值之间的差异程度

误差分析

如果某个因素对最后的因变量没有影响, 那么这个因素的组间误差中只包含随机误差, 不包含系统误差. 此时组间误差组内误差经过平均后的数值(称为均方方差)就应该很接近, 它们的比值应该很接近于1.

否则, 如果是因素对因变量有影响, 则组间误差中应当包含系统误差, 会导致组间误差平均之后的数值就会大于组内误差平均后的数值, 它们之间的比值就会大于1.

当这个比值大到某种程度时, 就认为因素的不同水平之间存在着显著的差异, 即自变量对因变量有显著影响.

方差分析中的基本假定

方差分析中有三个基本假定:

  • 每个总体都应服从正态分布. 对于因素的每一个水平, 其观测值时来自正态分布总体的简单随机样本

  • 各个总体的方差σ2\sigma^2必须相同

  • 观测值是独立的

假设检验问题

假设因素有kk个水平, 每个水平的均值分别用μ1,μ2,,μk\mu_1,\mu_2,\cdots,\mu_k表示, 要检验kk个水平总体的均值是否相等, 因此作出以下的假设:

H0:μ1=μ2==μkH_0: \mu_1=\mu_2=\cdots=\mu_k, 自变量对因变量没有显著影响

H1:μ1,μ2,,μkH_1: \mu_1,\mu_2,\cdots,\mu_k不全相等, 自变量对因变量有显著影响

最后更新于