多元线性回归
因变量为y, 有k个自变量分别为x1,x2,⋯,xk, 描述y如何依赖于这k个自变量和误差项ε的方程, 称为多元回归模型:
y=β0+β1x1+β2x2+⋯+βkxk+ε
对于误差项ε有如下的假定:
误差项ε是一个随机变量, 期望值为0
对于任意的自变量组合, ε对应的方差σ2相同
ε服从正态分布, 且任意一组自变量对应的误差相互独立
因此, 对应的多元回归方程为:
E(y)=β0+β1x1+β2x2+⋯+βkxk
对应的估计的多元回归方程为:
y^=β^0+β^1x1+β^2x2+⋯+β^kxk
β^是β的估计值, 称为偏回归系数. y^是因变量y的估计值.
参数且求解方法仍然是最小二乘法.
回归方程的拟合优度
多重判定系数
多重判定系数是多元回归中回归平方和占总平方和的比例, 这点与一元回归一样, 也是度量拟合程度的一个统计量. 仍然符合:
SST=SSR+SSE
SST=∑(yi−yˉ)2=∑(yi−y^i)2+∑(y^i−yˉ)2=SSR+SSE
只不过这里y的计算是与k个自变量相关的.
但需要注意的是, 自变量个数的增加会影响到因变量中被估计的回归方程所解释的变差大小. 当自变量增加时, 预测误差会变小, 从而减小了SSE, 增大了SSR, 从而使多重判定系数R2被高估. 因此使用调整的多重判定系数Rα2, 考虑了样本量和模型中自变量的数量对最终结果的影响:
Rα2=1−(1−R2)(n−k−1n−1)
估计标准误差
对应于一元回归, 多元回归中的轨迹标准误差即误差项ε方差的σ2的一个估计值为:
se=n−k−1∑(yi−y^i)2=n−k−1SSE=MSE
显著性检验
线性关系检验
线性关系检验是检验因变量y与k个自变量之间的关系是否显著, 称为总体显著性检验.
提出假设:
H0:β1=β2=⋯=βk=0
H1:β1,β2,⋯,βk中至少有一个不为0
计算检验统计量:
F=SSE/(n−k−1)SSR/k∼F(k,n−k−1)
做出统计决策:
对于显著性水平α, 如果F>Fα(k,n−k−1)则拒绝原假设, 认为至少有一个自变量与因变量关系显著.
回归系数检验和推断
每次对于一个系数βi进行检验, 需要注意控制检验系数的个数, 避免第I类错误犯过多次.
提出假设:
H0:βi=0
计算检验统计量t:
ti=sβ^iβ^i∼t(n−k−1)
sβ^i是回归系数β^i抽样分布的标准差:
sβ^i=∑xi2−n1(∑xi)2se
做出统计决策:
对于显著性水平α, 如果∣t∣>tα/2(n−k−1), 则拒绝原假设.
多重共线性
多重共线性指的是, 当回归模型中两个或两个以上的自变量彼此相关时, 回归模型中存在多重共线性. 变量之间高度相关时, 会使回归结果混乱, 甚至完全错误. 表现为:
线性关系检验显著, 但只有很少的系数回归系数检验显著. 这是因为自变量对因变量的共现相互重叠了, 且只出现在某些变量中
对参数估计值的正负号产生影响, 有可能使估计值与实际值正负相反.
多重共线性的判别
如果出现以下情况, 说明可能存在多重共线性:
模型的线性关系检验(F检验)显著时, 几乎所有回归系数βi的t检验却不显著
某个自变量的容忍度1−Ri2越小, 多重共线性越严重. 其中Ri是以这个自变量为因变量, 其他k−1个自变量仍为自变量, 得到的线性回归模型的判定系数
多重共线性的处理
解决方法有:
将一个或多个相关的自变量从模型中剔除, 使保留的自变量尽可能不相关
如果不删除现有的自变量, 应保证对y值的推断(预测)应当限制在自变量样本值的范围内