5 votos

Varianza de la regresión kernel ridge frente al proceso gaussiano

Considere el modelo

$ \mathbf{y} = f(\mathrm{X}) + \epsilon $ .

Aquí $\mathrm{X}$ es un fijo $n \times d$ matriz de datos, y $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$ es un ruido gaussiano iid. Supongamos que $\sigma^2$ es conocido.

En primer lugar, considere la posibilidad de modelar esto mediante un proceso gaussiano, es decir $f \sim \mathcal{GP}(0, k)$ . Entonces se puede demostrar que para un nuevo punto $x_\ast$ la distribución predictiva es gaussiana con media y varianza dadas por

$ \mu_p = k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \sigma^2 I)^{-1}\mathbf{y} $ ,

$ V_p = k(x_\ast, x_\ast) - k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \sigma^2 I)^{-1}k(\mathrm{X}, x_\ast) $ ,

respectivamente. Ahora, consideremos el modelado de los mismos datos utilizando la regresión kernel ridge (con el parámetro de regularización $\lambda$ ). En este caso, estimamos $f$ (se supone que está en el RKHS correspondiente al núcleo $k$ ), y obtener predicciones dadas por

$ \hat{f}(x_\ast) = k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \lambda I)^{-1}\mathbf{y} $ ,

que es, por supuesto, la misma que la media del proceso gaussiano posterior (con $\lambda = \sigma^2$ ), porque los dos modelos son simplemente formas diferentes de ver la misma cosa.

Ahora, aquí es donde surge mi confusión. Basándome en esta equivalencia, me parece que la varianza de la predicción de la cresta debería coincidir con la varianza del proceso gaussiano posterior. Pero esto no parece ser el caso. Tenemos,

$\mathbb{V}[\hat{f}(x_\ast)] = k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \lambda I)^{-1} \mathbb{V}[\mathbf{y}] (k(\mathrm{X}, \mathrm{X}) + \lambda I)^{-1}k(\mathrm{X}, x_\ast) = \sigma^2 k(\mathrm{X}, x_\ast)^T(k(\mathrm{X}, \mathrm{X}) + \lambda I)^{-2}k(\mathrm{X}, x_\ast) $ .

Utilizando la identidad de Woodbury, esto se puede reescribir como

$ \frac{\sigma^2}{\lambda}(\phi(x_\ast)^T(\phi(\mathrm{X})^T\phi(\mathrm{X}) + \lambda I)^{-1} \phi(\mathrm{X})^T\phi(\mathrm{X}) \phi(x_\ast) - \phi(x_\ast)^T(\phi(\mathrm{X})^T\phi(\mathrm{X}) + \lambda I)^{-1}\phi(\mathrm{X})^T\phi(\mathrm{X})\phi(\mathrm{X})^T(k(\mathrm{X}, \mathrm{X} + \lambda I)^{-1}\phi(\mathrm{X})\phi(x_\ast)) $ ,

donde $\phi$ es el mapa de características correspondiente a $k$ . Esto es similar a la varianza del proceso gaussiano posterior, pero no es igual (con $\lambda = \sigma^2$ ). Podemos obtener una igualdad aproximada tomando $(\phi(\mathrm{X})^T\phi(\mathrm{X}) + \lambda I)^{-1}\phi(\mathrm{X})^T\phi(\mathrm{X}) \approx I$ pero no me queda claro por qué no hay una igualdad estricta como en el caso de la media.

4voto

A. G. Puntos 351

No creo que estés comparando de igual a igual.

La mezcla de su notación ( $\mu_p, V_p$ ) con la de Rasmussen, la ecuación de predicción de la Regresión del Proceso Gaussiano (GPR) (cuya GP tiene una función media de $0$ ) es

$\mathbb{f}_* | X, \mathbb{y}, X_* \sim \mathcal{N}(\mu_p, V_p)$

y para el GPR has identificado la media/expectativa predictiva condicional $\mu_p = \text{E}[\mathbb{f}_* | X, \mathbb{y}, X_*]$ y condicional co desviación $V_p = \text{Cov}(\mathbb{f}_* | X, \mathbb{y}, X_*)$

Y ha observado que (en este caso) el resultado predictivo del procedimiento de regresión Kernel Ridge (KRR) es el mismo que la media/expectativa predictiva condicional $\text{E}[\mathbb{f}_* | X, \mathbb{y}, X_*]$ de la distribución predictiva del GPR (es decir, la salida).

Pero la varianza de esta media/expectativa predictiva condicional $\text{Var} \Big[ \text{E}[\mathbb{f}_* | X, \mathbb{y}, X_*] \Big]$ (que es lo que busca) no es necesariamente lo mismo que $\text{Cov}(\mathbb{f}_* | X, \mathbb{y}, X_*)$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X