Estoy tratando de maximizar la probabilidad marginal logarítmica de un proceso gaussiano con respecto a sus hiperparámetros (con un núcleo exponencial cuadrado, para ser específicos). He estado consultando el texto Gaussian Processes for Machine Learning de Rasmussen & Williams para intentar resolver este problema, y veo que se refieren al método del gradiente conjugado muy a menudo para maximizar la probabilidad marginal logarítmica, pero no explican cómo exactamente. Tal vez sea obvio, pero no lo veo.
El método del gradiente conjugado resuelve problemas de la forma $Ax=b$ que resulta ser lo mismo que maximizar $f(x) = 1/2 x ^{T}Ax - x^{T}b$ . Sin embargo, no veo cómo cualquiera de estas ecuaciones es particularmente relevante para el problema que estoy tratando de resolver. La probabilidad marginal del logaritmo sólo tiene un término que es cuadrático, así que ¿cómo se puede maximizar la probabilidad marginal del logaritmo teniendo en cuenta también los otros términos? Y la matriz de covarianza cambia constantemente con los hiperparámetros, no con los datos originales, así que no estoy tratando de resolver para $x$ necesariamente en $f(x) = 1/2 x ^{T}Ax - x^{T}b$ que parece ser el objetivo del Método del Gradiente Conjugado?