0x01 一元线性回归基础
回归分析
回归分析是对数值型自变量和数值型因变量之间相关关系进行分析的方法. 变量之间存在的不确定的数量关系, 称为相关关系(correlation).
在进行相关分析时, 对总体有以下的假定:
两个变量之间是线性关系
两个变量都是随机变量
相关系数
为准确度量两个变量之间的线性关系强度, 需要计算相关系数(correlation coefficient). 相关系数是根据样本数据计算的, 度量两个变量之间线性关系强度的统计量.
如果相关系数是通过总体的全部数据计算得到的, 称为总体相关系数, 记为
如果是根据样本数据计算的, 称为样本相关系数, 记为
其中, 样本相关系数的计算公式为:
上式计算得到的相关系数称为线性相关系数, 也称为皮尔逊相关系数.
注意: 虽然是两个变量之间线性关系的一个度量, 但不意味着与之间一定有因果关系. 可以通过显著性检验判断两个变之间是否有相关关系.
相关关系的显著性检验
总体相关系数是未知的, 通常是将样本相关系数作为的近似估计值. 而是一个随机变量, 是否能根据样本相关系数, 说明总体的相关程度呢? 需要考察样本相关系数的可靠性, 也就是进行显著性检验.
的抽样分布
的抽样分布, 随着样本量的增大, 趋于正态分布.
因为是在为中心的周围分布的, 因此当总体相关系数很小或者接近0时, 这种趋于正态分布的趋势就非常明显; 当远离0时, 的抽样分布会呈现出一定的偏态, 除非样本量非常大. 这是因为取值范围在-1到1之间, 且又在的两侧分布, 当的绝对值接近于1时, 所以一个方向的分布变化是有限的, 因此会产生不对称的线性.
的显著性检验
从上面的的抽样分布的分析可知, 如果直接使用正态分布来检验, 是有较大的风险的, 通常会采用检验来进行. 具体的检验步骤如下:
提出假设:
计算检验的统计量:
进行决策: 根据显著性水平和自由度来查分布表, 得出的临界值, 若, 则拒绝原假设, 表明总体的两个变量之间存在显著的线性关系.
一元线性回归
相关分析的目的在于测量变量之间的关系强度, 借助相关系数进行测度. 回归分析侧重于考察变量之间的数量关系, 并通过一定的数学表达式, 将这种数量关系描述出来, 确定一个或几个自变量对另一个因变量的影响程度.
回归分析可以用来解决下面几个方面的问题:
从一组样本数据出发, 确定变量之间的数学关系式. 这种用途是最通常的
对数学关系式的可信程度进行各种统计检验, 并从影响因变量的诸多自变量中找出影响显著的和不显著的
利用求得的数学关系式, 根据一个或几个自变量的取值来估计或预测因变量的取值, 并给出这种估计或预测的可靠程度. 前半句是机器学习中回归模型的原理, 后半句可以通过一些统计检验方法来对预测值的可靠性程度进行度量
一元线性回归模型
回归模型描述因变量如何依赖于自变量和误差项:
把分解成线性函数部分和误差项. 线性函数部分反映了由于自变量变化而引起的因变量的线性变化, 误差项是一个随机变量, 反映了除和之间的线性关系外的随机因素对影响, 是一种变异性.
有以下注意点:
对于所有的值, 的方差都相同, 因此对于任意一个对应的, 的方差也是
误差项是一个服从正态分布的随机变量, 且独立, 即. 独立性意味着对于任意值, 所对应的与其他值所对应的不相关
回归方程
对回归模型取期望, 得到的期望值所对应的方差:
即的期望值是的线性函数, 将描述期望值如何依赖于自变量的方程称为回归方程. 因此机器学习中的有显式公式的回归模型其实都是描述与因变量期望的关系.
估计的回归方程
回归方程中的参数, 是未知的, 需要根据样本数据去估计他们, 样本统计量与来代替回归方程中的参数, 就得到了估计的回归方程:
最小二乘估计
根据最小误差来确定估计参数的方法称为最小二乘法或最小平方法, 这里的误差就是指的距离的平方.
回归直线的拟合优度
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度. 通过计算判定系数来反映拟合优度.
判定系数
判定系数是对估计的回归方程拟合优度的度量.
值取值的波动称为变差. 它来源于两个方面:
由自变量取值不同造成的
除外的其他因素(对的非线性关系, 测量误差等)
对于一个具体的观测值来说, 变差的大小可以用实际观测值与其均值之差来表示(注意这里的均值指的是所有可能取值对应的值的均值, 即所有样本的均值). 个观测值的总变差由这些离差的平方和来表示, 称为总平方和(SST):
可以分解为:
即:
其中是回归值与均值的离差平方和, 可以看做是由于自变量的变化引起的因变量的变化, 反映了的总变差中由于和之间的线性关系引起的变化部分, 是可以由回归直线来解释的变差部分, 称为回归平方和(SSR):
是各观测点与回归值的残差的平方和, 反映了除了对的线性影响之外的其他因素引起的变化部分, 是不能由回归直线来解释的变差部分, 记为残差平方和/误差平方和(SSE):
因此, 越大, 回归直线拟合的越好. 回归平方和占总平方和的比例称为判定系数, 记为:
判定系数测度了回归直线对观测数据的拟合程度, 取值范围是. 值越大说明拟合的效果越好.
相关系数是判定系数的平方根, 相关系数与回归系数的正负号是相同的. 相关系数也从另一种角度说明了回归直线的拟合程度.
估计标准误差
残差平方和可以说明实际观测值与回归估计值之间的差异程度. 估计标准误差就是度量个实际观测点在直线周围散步状况的一个统计量, 它是均方残差(MSE)的平方根, 用表示:
它反映了用估计的回归方程预测因变量时, 预测误差的大小. 越小, 回归直线对各观测点的代表性越好, 进行的预测越准确.
显著性检验
根据样本数据建立了估计方程后, 还需要通过检验, 才能判断该方程是否真实地反映了变量和之间的关系. 只有通过了检验, 才能拿来进行预测.
回归分析中的显著性检验包含两方面的内容:
线性关系检验
回归系数检验
线性关系检验
线性关系检验是检验自变量和因变量之间的线性关系是否显著. 首先需要构造统计量, 这里的统计量是用回归平方和SSR和残差平方和SSE为基础构造的.
将SSR除以对应的自由度, 得到均方回归MSR; 将SSE除以对应的自由度, 得到均方残差MSE. 此时的原假设为, 即两个变量之间的线性关系不显著. 则有:
这里使用的是统计量. 根据显著性水平找到临界值, 如果, 则说明两个变量之间的关系式显著的.
回归系数检验
回归系数的显著性检验是要检验自变量对因变量的影响是否显著. 回归系数的显著性检验是检验回归系数是否等于0, 因此原假设为.
接下来是构造统计量. 统计证明服从正态分布, 数学期望为, 标准差为:, 其中是误差项的标准误差. 由于是未知的, 就用它的估计量来代替, 代入后得到估计量:
因此, 构造出用于检验回归系数的统计量:
服从自由度为的分布. 由于原假设中, 因此构造的统计量为, 再根据显著性水平, 找到相应的临界值, 如果, 否认原假设, 认为自变量对因变量之间的关系是显著的.
利用回归方程进行预测
回归模型经过各种检验表明合理性后, 就可以用来进行预测, 即预测因变量的期望值. 对于一个给定的, 通常我们使用点估计, 给出对应的估计值. 这里要详细说明的是区间估计.
回归预测的区间估计
利用估计的回归方程, 对于的一个特定值, 求出的一个估计值的区间, 称为区间估计. 区间估计也有两种类型:
置信区间估计: 对一个给定的, 求出的平均值的估计区间, 即的区间
预测区间估计: 对一个给定的, 求出的一个个别值的估计区间
的平均值的置信区间估计
为自变量的一个给定值, 是给定时因变量的真实平均值或期望值, 是的估计值.
期望估计值不能精确地等于, 因此要用来推断. 这个过程需要考虑估计的回归方程得到的的标准, 用表示:
整体符合分布, 因此在的置信水平下的置信区间为:
可以看出, 当时, 标准差最小, 置信区间最窄, 估计是最准确的; 偏离越远, 估计就越不好.
个别值的预测区间估计
对于给定值, 求出的一个个别值的区间估计. 仍然是符合分布, 但是此时的标准差变为了:
因此此时的预测区间变为了:
两者区别
可以看出, 对个别值的区间估计会比对期望的估计对应的区间宽度会更宽, 说明估计平均值比估计特定值/个别值会更精确.
最后更新于