Quiero determinar cómo la inclusión de nuevos datos afecta a los hiperparámetros del kernel del Proceso Gaussiano. Como referencia, asumiendo núcleos exponenciales cuadrados como los proporcionados aquí : $$K(x,x') = \sigma^2\exp\left(\frac{-(x-x')^T(x-x')}{2l^2}\right)$$ Por lo tanto, la derivada con respecto a la escala de longitud determina cuál es el efecto en el núcleo cuando la escala de longitud cambia de la siguiente manera: $$\frac{\partial K}{\partial l} = \sigma^2\exp\big(\frac{-(x-x')^T(x-x')}{2l^2}\big) \frac{(x-x')^T(x-x')}{l^3}$$
Sin embargo, me gustaría determinar cuál es el cambio o el efecto de un solo punto de datos nuevo en la escala de longitud. ¿Cuál debería ser la expresión simbólica que necesito para evaluar la derivada?
Es $$\frac{\partial l}{\partial \mu}$$ del GP? donde $\mu$ es la media predictiva de la GP como sigue:
$$\mu(x^*)=K(x^*,X)^\top[K(X,X)+\sigma_n^2\mathbf{I}]^{-1} \mathbf{y_n}$$ Si es así, ¿cómo se puede formular la expresión derivada? (La expresión inicial por lo menos, debería ser capaz de trabajar derivada de allí mismo)