0x02 前置基础高斯过程回归

引入

对于实际问题, 假设我们有 $n$ 个的实际的样本点, 对应的指示变量(训练集)的值为 $x_1,x_2,\cdots,x_n$ , 在这些点上的观测值分别为 $y_1,y_2,\cdots,y_n$ . 假设这些样本都来自于高斯过程 $f(x)$ .

我们认为 $x_1,x_2,\cdots,x_n$ 就是系统所对应的高斯过程 $f(x)$ 的采样, 在这 $n$ 个点抽样组成了一个 $n$ 维的多维高斯分布. 而观测值 $y_1,y_2,\cdots,y_n$ 是这个 $n$ 维的多维高斯分布中采样得到的一个点.

注意上面两个采样的区别:

前者是对随机过程的采样, 组成一个多维随机变量的分布, 是在指示变量维度上进行的采样
后者是对多维随机变量的采样, 得到的是具体的观测值

我们把 $y$ 看为是一个 $n$ 维的的多维高斯分布, $y_1,y_2,\cdots,y_n$ 是这个多维高斯分布的观测值. 由于观测通常是带噪声的, 所以 $y$ 的表示如下:

$y=f(x)+N(0,\sigma_n^2)$

其中, $y=y(x)$ , $f(x)$ 是随机过程在 $n$ 个样本点上采样得到的 $n$ 维的多维高斯分布, $N(0,\sigma_n^2)$ 是一个 $n$ 维的高斯噪声.

准确来说, $f(x)$ 本身就是一个随机过程, 表示为 $f\sim{GP(0,K)}$ , 上式中的 $f(x)$ 其实是它自身在指示变量上的采样得到的多维高斯分布. 其中, 协方差函数 $K(x,x^{'})$ 一般是某个核函数. 核函数可以有多种选择. 由于均值函数为零函数, 因此高斯过程完全由协方差函数决定, 这样简化了我们分析计算的过程, 而模型结果最后的好坏完全取决于协方差函数即核函数的选择, 不同的核函数对应于不同的高斯过程.

由此可见, 观测值的分布完全是由协方差函数即核函数决定的, 更准确的说, 是由选择的核函数的形式以及这个核函数的参数决定的.

高斯回归过程就是根据训练样本集确定核函数参数从而确定模型的. 对于新的样本(指示变量) $x$ , 到对应的观测值得分布. 注意与其他的回归预测不同, 此处的预测得到的不是一个具体值, 而是一个分布.

本质

高斯过程回归的本质就是: 把低维空间(训练样本数量决定的多维高斯分布)映射到高维空间(高斯过程对应的无限维空间). 用若干样本推测整个空间上分布的情况.

高斯过程定义

通过一个一元的均值函数以及一个二元的核函数(协方差函数), 我们就能定义一个高斯过程. 常见的核函数如下图:

学习方法

这里的学习指的是高斯过程回归, 即根据训练集确定高斯过程的参数.

我们假定训练集和测试集(预测样本集合)来自于同一高斯随机过程, 因此可以得到训练集合测试集组成的联合多维高斯分布. 只需要根据条件分布 $P(y^*|y)$ 就可以得到测试集 $y^*$ 的分布, 可以使用 $y^*$ 分布的均值作为回归结果.

结合一个例子解释高斯过程回归的学习过程:

未知函数 $f: R\to{R}$ , 就是我们最后要估计的高斯过程(当然这里还是一个分布).

如下图所示, 我们知道3个样本点 $x_1,x_2,x_3$ 及其观测值 $f_1,f_2,f_3$

根据 $y=f(x)+N(0,\sigma_n^2)$ 及 $f\sim{GP(0,K)}$ , 可以得到如下的三维高斯分布:

这时因为 $f(x)$ 也是一个均值向量零向量的三维高斯分布, 而噪声也是一个均值向量零向量的三维高斯分布, 将两个高斯分布相加, 用一个综合的三维高斯分布表示, 这个三维高斯分布的均值向量仍然是零向量. 而这里协方差矩阵中的每个值, 都是根据核函数得到的, 例如我们使用高斯核就能得到如下的协方差矩阵: