0x02 多元线性回归

多元线性回归

因变量为yy, 有kk个自变量分别为x1,x2,,xkx_1, x_2, \cdots, x_k, 描述yy如何依赖于这kk个自变量和误差项ε\varepsilon的方程, 称为多元回归模型:

y=β0+β1x1+β2x2++βkxk+εy=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_kx_k+\varepsilon

对于误差项ε\varepsilon有如下的假定:

  • 误差项ε\varepsilon是一个随机变量, 期望值为0

  • 对于任意的自变量组合, ε\varepsilon对应的方差σ2\sigma^2相同

  • ε\varepsilon服从正态分布, 且任意一组自变量对应的误差相互独立

因此, 对应的多元回归方程为:

E(y)=β0+β1x1+β2x2++βkxkE(y)=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_kx_k

对应的估计的多元回归方程为:

y^=β^0+β^1x1+β^2x2++β^kxk\hat{y}=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2+\cdots+\hat\beta_kx_k

β^\hat\betaβ\beta的估计值, 称为偏回归系数. y^\hat{y}是因变量yy的估计值.

参数且求解方法仍然是最小二乘法.

回归方程的拟合优度

多重判定系数

多重判定系数是多元回归中回归平方和总平方和的比例, 这点与一元回归一样, 也是度量拟合程度的一个统计量. 仍然符合:

SST=SSR+SSESST=SSR+SSE

SST=(yiyˉ)2=(yiy^i)2+(y^iyˉ)2=SSR+SSESST=\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y}_i)^2 + \sum(\hat{y}_i-\bar{y})^2=SSR+SSE

只不过这里yy的计算是与kk个自变量相关的.

但需要注意的是, 自变量个数的增加会影响到因变量中被估计的回归方程所解释的变差大小. 当自变量增加时, 预测误差会变小, 从而减小了SSE, 增大了SSR, 从而使多重判定系数R2R^2被高估. 因此使用调整的多重判定系数Rα2R^2_{\alpha}, 考虑了样本量和模型中自变量的数量对最终结果的影响:

Rα2=1(1R2)(n1nk1)R^2_{\alpha}=1 - (1 - R^2)(\frac{n-1}{n-k-1})

估计标准误差

对应于一元回归, 多元回归中的轨迹标准误差即误差项ε\varepsilon方差的σ2\sigma^2的一个估计值为:

se=(yiy^i)2nk1=SSEnk1=MSEs_e=\sqrt{\frac{\sum (y_i-\hat{y}_i)^2}{n-k-1}}=\sqrt{\frac{SSE}{n-k-1}}=\sqrt{MSE}

显著性检验

线性关系检验

线性关系检验是检验因变量yykk个自变量之间的关系是否显著, 称为总体显著性检验.

  • 提出假设:

    H0:β1=β2==βk=0H_0:\beta_1=\beta_2=\cdots=\beta_k=0

    H1:β1,β2,,βkH_1: \beta_1,\beta_2,\cdots,\beta_k中至少有一个不为0

  • 计算检验统计量:

    F=SSR/kSSE/(nk1)F(k,nk1)F=\frac{SSR/k}{SSE/(n-k-1)} \sim F(k, n-k-1)

  • 做出统计决策:

    对于显著性水平α\alpha, 如果F>Fα(k,nk1)F \gt F_{\alpha}(k, n-k-1)则拒绝原假设, 认为至少有一个自变量与因变量关系显著.

回归系数检验和推断

每次对于一个系数βi\beta_i进行检验, 需要注意控制检验系数的个数, 避免第I类错误犯过多次.

  • 提出假设:

    H0:βi=0H_0: \beta_i=0

  • 计算检验统计量tt:

    ti=β^isβ^it(nk1)t_i=\frac{\hat\beta_i}{s_{\hat\beta_i}} \sim t(n-k-1)

    sβ^is_{\hat\beta_i}是回归系数β^i\hat\beta_i抽样分布的标准差:

    sβ^i=sexi21n(xi)2s_{\hat\beta_i}=\frac{s_e}{\sqrt{\sum x^2_i - \frac{1}{n}(\sum x_i)^2}}

  • 做出统计决策:

    对于显著性水平α\alpha, 如果t>tα/2(nk1)|t| \gt t_{\alpha/2}(n-k-1), 则拒绝原假设.

多重共线性

多重共线性指的是, 当回归模型中两个或两个以上的自变量彼此相关时, 回归模型中存在多重共线性. 变量之间高度相关时, 会使回归结果混乱, 甚至完全错误. 表现为:

  • 线性关系检验显著, 但只有很少的系数回归系数检验显著. 这是因为自变量对因变量的共现相互重叠了, 且只出现在某些变量中

  • 参数估计值正负号产生影响, 有可能使估计值与实际值正负相反.

多重共线性的判别

如果出现以下情况, 说明可能存在多重共线性:

  • 模型中各对自变量之间显著相关

  • 模型的线性关系检验(FF检验)显著时, 几乎所有回归系数βi\beta_itt检验却不显著

  • 回归系数的正负号与预期的相反

  • 某个自变量的容忍度1Ri21-R^2_i越小, 多重共线性越严重. 其中RiR_i是以这个自变量为因变量, 其他k1k-1个自变量仍为自变量, 得到的线性回归模型的判定系数

多重共线性的处理

解决方法有:

  • 将一个或多个相关的自变量从模型中剔除, 使保留的自变量尽可能不相关

  • 如果不删除现有的自变量, 应保证对yy值的推断(预测)应当限制在自变量样本值的范围内

最后更新于