0x02 前置基础 高斯过程回归

引入

对于实际问题, 假设我们有nn个的实际的样本点, 对应的指示变量(训练集)的值为x1,x2,,xnx_1,x_2,\cdots,x_n, 在这些点上的观测值分别为y1,y2,,yny_1,y_2,\cdots,y_n. 假设这些样本都来自于高斯过程f(x)f(x).

我们认为x1,x2,,xnx_1,x_2,\cdots,x_n就是系统所对应的高斯过程f(x)f(x)的采样, 在这nn个点抽样组成了一个nn维的多维高斯分布. 而观测值y1,y2,,yny_1,y_2,\cdots,y_n是这个nn维的多维高斯分布中采样得到的一个点.

注意上面两个采样的区别:

  • 前者是对随机过程的采样, 组成一个多维随机变量的分布, 是在指示变量维度上进行的采样

  • 后者是对多维随机变量的采样, 得到的是具体的观测值

我们把yy看为是一个nn维的的多维高斯分布, y1,y2,,yny_1,y_2,\cdots,y_n是这个多维高斯分布的观测值. 由于观测通常是带噪声的, 所以yy的表示如下:

y=f(x)+N(0,σn2)y=f(x)+N(0,\sigma_n^2)

其中, y=y(x)y=y(x), f(x)f(x)是随机过程在nn个样本点上采样得到的nn维的多维高斯分布, N(0,σn2)N(0,\sigma_n^2)是一个nn维的高斯噪声.

准确来说, f(x)f(x)本身就是一个随机过程, 表示为fGP(0,K)f\sim{GP(0,K)}, 上式中的f(x)f(x)其实是它自身在指示变量上的采样得到的多维高斯分布. 其中, 协方差函数K(x,x)K(x,x^{'})一般是某个核函数. 核函数可以有多种选择. 由于均值函数为零函数, 因此高斯过程完全由协方差函数决定, 这样简化了我们分析计算的过程, 而模型结果最后的好坏完全取决于协方差函数即核函数的选择, 不同的核函数对应于不同的高斯过程.

由此可见, 观测值的分布完全是由协方差函数即核函数决定的, 更准确的说, 是由选择的核函数的形式以及这个核函数的参数决定的.

高斯回归过程就是根据训练样本集确定核函数参数从而确定模型的. 对于新的样本(指示变量)xx, 到对应的观测值得分布. 注意与其他的回归预测不同, 此处的预测得到的不是一个具体值, 而是一个分布.

本质

高斯过程回归的本质就是: 把低维空间(训练样本数量决定的多维高斯分布)映射到高维空间(高斯过程对应的无限维空间). 用若干样本推测整个空间上分布的情况.

高斯过程定义

通过一个一元均值函数以及一个二元核函数(协方差函数), 我们就能定义一个高斯过程. 常见的核函数如下图:

学习方法

这里的学习指的是高斯过程回归, 即根据训练集确定高斯过程的参数.

我们假定训练集和测试集(预测样本集合)来自于同一高斯随机过程, 因此可以得到训练集合测试集组成的联合多维高斯分布. 只需要根据条件分布P(yy)P(y^*|y)就可以得到测试集yy^*的分布, 可以使用yy^*分布的均值作为回归结果.

结合一个例子解释高斯过程回归的学习过程:

未知函数f:RRf: R\to{R}, 就是我们最后要估计的高斯过程(当然这里还是一个分布).

如下图所示, 我们知道3个样本点x1,x2,x3x_1,x_2,x_3及其观测值f1,f2,f3f_1,f_2,f_3

根据y=f(x)+N(0,σn2)y=f(x)+N(0,\sigma_n^2)fGP(0,K)f\sim{GP(0,K)}, 可以得到如下的三维高斯分布:

这时因为f(x)f(x)也是一个均值向量零向量的三维高斯分布, 而噪声也是一个均值向量零向量的三维高斯分布, 将两个高斯分布相加, 用一个综合的三维高斯分布表示, 这个三维高斯分布的均值向量仍然是零向量. 而这里协方差矩阵中的每个值, 都是根据核函数得到的, 例如我们使用高斯核就能得到如下的协方差矩阵:

现在测试集中一个待预测的样本点xx^*, 我们希望得到它对应的观测值的预测yy^*:

之前说过, 我们假设训练集样本与测试集样本来自于一个随机过程, 那么就能组成一个新的四维联合分布, 而且这个分布也是多维高斯分布:

黄色部分是原来训练集中样本之间的协方差矩阵, 绿色部分为新增的样本xx^*与原来的三个样本通过核函数计算得到的, 组成新的四维的协方差矩阵. 那么(f,f)(f,f^*)联合分布P(f,f)P(f,f^*)也就得到了. 这里的ff^*是一个一维的高斯分布.

高斯分布的参数可以由下图中的公式得到:

这样, 就得到了关于新样本观测值的一个预测分布, 注意这里得到是一个分布, 而不是一个具体的值. 如果我们需要具体的值, 可以用分布的期望等来代替.

至此, GPR的步骤就完成了.

最后更新于