Considere el modelo
$ \mathbf{y} = f(\mathrm{X}) + \epsilon $ .
Aquí $\mathrm{X}$ es un fijo $n \times d$ matriz de datos, y $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$ es un ruido gaussiano iid. Supongamos que $\sigma^2$ es conocido.
En primer lugar, considere la posibilidad de modelar esto mediante un proceso gaussiano, es decir $f \sim \mathcal{GP}(0, k)$ . Entonces se puede demostrar que para un nuevo punto $x_\ast$ la distribución predictiva es gaussiana con media y varianza dadas por
$ \mu_p = k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \sigma^2 I)^{-1}\mathbf{y} $ ,
$ V_p = k(x_\ast, x_\ast) - k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \sigma^2 I)^{-1}k(\mathrm{X}, x_\ast) $ ,
respectivamente. Ahora, consideremos el modelado de los mismos datos utilizando la regresión kernel ridge (con el parámetro de regularización $\lambda$ ). En este caso, estimamos $f$ (se supone que está en el RKHS correspondiente al núcleo $k$ ), y obtener predicciones dadas por
$ \hat{f}(x_\ast) = k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \lambda I)^{-1}\mathbf{y} $ ,
que es, por supuesto, la misma que la media del proceso gaussiano posterior (con $\lambda = \sigma^2$ ), porque los dos modelos son simplemente formas diferentes de ver la misma cosa.
Ahora, aquí es donde surge mi confusión. Basándome en esta equivalencia, me parece que la varianza de la predicción de la cresta debería coincidir con la varianza del proceso gaussiano posterior. Pero esto no parece ser el caso. Tenemos,
$\mathbb{V}[\hat{f}(x_\ast)] = k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \lambda I)^{-1} \mathbb{V}[\mathbf{y}] (k(\mathrm{X}, \mathrm{X}) + \lambda I)^{-1}k(\mathrm{X}, x_\ast) = \sigma^2 k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \lambda I)^{-2}k(\mathrm{X}, x_\ast) $ .
Utilizando la identidad de Woodbury, esto se puede reescribir como
$ \frac{\sigma^2}{\lambda}(\phi(x_\ast)^T(\phi(\mathrm{X})^T\phi(\mathrm{X}) + \lambda I)^{-1} \phi(\mathrm{X})^T\phi(\mathrm{X}) \phi(x_\ast) - \phi(x_\ast)^T(\phi(\mathrm{X})^T\phi(\mathrm{X}) + \lambda I)^{-1}\phi(\mathrm{X})^T\phi(\mathrm{X})\phi(\mathrm{X})^T(k(\mathrm{X}, \mathrm{X} + \lambda I)^{-1}\phi(\mathrm{X})\phi(x_\ast)) $ ,
donde $\phi$ es el mapa de características correspondiente a $k$ . Esto es similar a la varianza del proceso gaussiano posterior, pero no es igual (con $\lambda = \sigma^2$ ). Podemos obtener una igualdad aproximada tomando $(\phi(\mathrm{X})^T\phi(\mathrm{X}) + \lambda I)^{-1}\phi(\mathrm{X})^T\phi(\mathrm{X}) \approx I$ pero no me queda claro por qué no hay una igualdad estricta como en el caso de la media.