9 votos

Problema de juguete de regresión de procesos gaussianos

Estaba tratando de ganar algo de intuición para la regresión del Proceso Gaussiano, así que hice un simple problema de juguete 1D para probar. Tomé $x_i=\{1,2,3\}$ como las entradas, y $y_i=\{1,4,9\}$ como las respuestas. ('Inspirado' de $y=x^2$ )

Para la regresión utilicé una función de núcleo exponencial estándar al cuadrado:

$$k(x_p,x_q)=\sigma_f^2 \exp \left( - \frac{1}{2l^2} \left|x_p-x_q\right|^2 \right)$$

Supuse que había ruido con desviación estándar $\sigma_n$ , por lo que la matriz de covarianza se convirtió:

$$K_{pq} = k(x_p,x_q) + \sigma_n^2 \delta_{pq}$$

Los hiperparámetros $(\sigma_n,l,\sigma_f)$ se estimaron maximizando la probabilidad logarítmica de los datos. Para hacer una predicción en un punto $x_\star$ He hallado la media y la varianza, respectivamente, de la siguiente manera

$$\mu_{x_\star} = k_\star^T (\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} y$$ $$\sigma_{x_\star}^2 = k(x_\star,x_\star)-k_\star^T(\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} k_\star$$

donde $k_\star$ es el vector de la covarianza entre $x_\star$ e insumos, y $y$ es un vector de las salidas.

Mis resultados para $1<x<3$ se muestran a continuación. La línea azul es la media y las líneas rojas marcan los intervalos de desviación estándar.

The results

Sin embargo, no estoy seguro de que esto sea correcto; mis entradas (marcadas con 'X') no se encuentran en la línea azul. En la mayoría de los ejemplos que veo, la media se cruza con las entradas. ¿Es ésta una característica general que cabe esperar?

10voto

John Richardson Puntos 1197

La función media que pasa por los puntos de datos suele ser un indicio de sobreajuste. La optimización de los hiperparámetros mediante la maximización de la probabilidad marginal tenderá a favorecer los modelos muy simples, a menos que haya suficientes datos que justifiquen algo más complejo. Como sólo tienes tres puntos de datos, que están más o menos en una línea con poco ruido, el modelo que se ha encontrado me parece bastante razonable. Esencialmente, los datos pueden explicarse como una función subyacente lineal con ruido moderado, o como una función subyacente moderadamente no lineal con poco ruido. La primera es la más sencilla de las dos hipótesis, y es la que favorece la "navaja de Occam".

7voto

Está utilizando los estimadores de Kriging con la adición de un término de ruido (conocido como efecto pepita en la literatura del proceso gaussiano). Si el término de ruido se fijó en cero, es decir,

$$\sigma^2_n \delta_{pq}=0$$

entonces sus predicciones actuarían como una interpolación y pasarían por los puntos de datos de la muestra.

3voto

kalimurugan Puntos 1

Esto me parece bien, en el libro de GP de Rasmussen definitivamente muestra ejemplos donde la función media no pasa por cada punto de datos. Tenga en cuenta que la línea de regresión es una estimación de la función subyacente, y estamos asumiendo que las observaciones son los valores de la función subyacente más algo de ruido. Si la línea de regresión basada a través de los tres puntos sería esencialmente decir que no hay ruido en los valores observados.

Se puede forzar la suposición de que no hay ruido configurando $\sigma_n = 0$ y sólo optimizar los otros hiperparámetros.

También sospecho que el hiperparámetro $l$ se establece un valor relativamente grande, dando una función muy superficial.

Podrías intentar sostener $l$ fijado en varios valores menores, y ver cómo cambia la curva. Tal vez si forzara $l$ sea un poco menor, la línea de regresión pasaría por todos los puntos de datos.

Como señala Dikran Marsupial, se trata de una característica incorporada a los procesos gaussianos, la probabilidad marginal penaliza los modelos demasiado específicos y prefiere los que pueden explicar muchos conjuntos de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X