2 votos

Determinación de cómo la adición en un nuevo punto de datos afecta a los hiperparámetros en un proceso gaussiano con un núcleo exponencial cuadrado

Quiero determinar cómo la inclusión de nuevos datos afecta a los hiperparámetros del kernel del Proceso Gaussiano. Como referencia, asumiendo núcleos exponenciales cuadrados como los proporcionados aquí : $$K(x,x') = \sigma^2\exp\left(\frac{-(x-x')^T(x-x')}{2l^2}\right)$$ Por lo tanto, la derivada con respecto a la escala de longitud determina cuál es el efecto en el núcleo cuando la escala de longitud cambia de la siguiente manera: $$\frac{\partial K}{\partial l} = \sigma^2\exp\big(\frac{-(x-x')^T(x-x')}{2l^2}\big) \frac{(x-x')^T(x-x')}{l^3}$$

Sin embargo, me gustaría determinar cuál es el cambio o el efecto de un solo punto de datos nuevo en la escala de longitud. ¿Cuál debería ser la expresión simbólica que necesito para evaluar la derivada?

Es $$\frac{\partial l}{\partial \mu}$$ del GP? donde $\mu$ es la media predictiva de la GP como sigue:

$$\mu(x^*)=K(x^*,X)^\top[K(X,X)+\sigma_n^2\mathbf{I}]^{-1} \mathbf{y_n}$$ Si es así, ¿cómo se puede formular la expresión derivada? (La expresión inicial por lo menos, debería ser capaz de trabajar derivada de allí mismo)

1voto

j__ Puntos 863

Una pregunta interesante. En primer lugar, la escala de longitud no cambia con los nuevos datos. Más bien, sólo cambia cuando se vuelven a optimizar los hiperparámetros. Así que asumo que te interesa saber cómo cambia el óptimo del espacio NLML parametrizado por los hiperparámetros y los datos con respecto a una nueva observación. Es decir: Veo un nuevo punto y vuelvo a optimizar la función kernel. La escala de longitudes cambia, ¿podemos cuantificar esto?

Desgraciadamente, una respuesta general completa a esto es no (hasta donde yo sé), ya que el espacio de optimización de los hiperparámetros no es analítico (a menos que se quiera ir muestreando todo el espacio e interperlando para rellenar los huecos).

Pero la esperanza no está perdida del todo. Lo que sospecho es que te importa el gradiente del espacio de hiperparámetros en el antiguo óptimo cuando se observa el nuevo punto, o más completamente el cambio sobre la región del óptimo cuando se observa el nuevo punto. El cambio en el espacio de hiperparámetros NLML es sólo la diferencia en NLML $(x)$ y NLML $(x, \bar{x})$ y lo mismo ocurre con las derivadas.

Cada nuevo punto es un acontecimiento discreto, por lo que hay que fijarse en las diferencias, no en los gradientes analíticos.

Por último, si le interesa el cambio de NLML $(x, \bar{x})$ con respecto a la posición de $\bar{x}$ podríamos calcular analíticamente esa derivada con bastante facilidad (pero voy a esperar a que me contestéis antes de enderezarlo todo).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X