Tengo el siguiente problema. Estoy leyendo el libro del Proceso Gaussiano http://www.gaussianprocess.org/gpml/chapters/RW2.pdf . En la regresión lineal bayesiana se sugiere utilizar la prioridad gaussiana sobre los parámetros. En la regresión gaussiana tampoco conocemos la distribución del proceso, que puede no ser gaussiana. ¿Puede la RGP funcionar siempre bien? No entiendo por qué debemos utilizar la distribución gaussiana. ¿Hay algún artículo o libro?
Respuestas
¿Demasiados anuncios?No puedo definir exactamente lo que pregunta en esta pregunta. Sin embargo, tengo dos hipótesis.
¿Por qué se utiliza la priorización gaussiana en la regresión lineal bayesiana?
Utilizamos esta prior como conveniente y que tiene una interpretación agradable. En realidad, es una penalización cuadrática para los valores de los parámetros.
¿Por qué utilizamos el proceso gaussiano como modelo para los datos?
Las realizaciones de procesos gaussianos con una función de covarianza adecuada pueden proporcionar casi todas las funciones que podemos encontrar en la "vida real". Además, son convenientes y proporcionan inferencia exacta y distribución marginal.
Si he entendido bien su pregunta, se trata de priores conjugados. Se trata de la integral que hay que calcular para incorporar la prioridad a la función de verosimilitud.
Para una función de verosimilitud dada prob(X|Θ), una probabilidad a priori(Θ) se denomina probabilidad a priori conjugada si la probabilidad a posteriori(Θ|X) tiene la misma forma algebraica que la probabilidad a priori. Si podemos elegir cómo expresar nuestras creencias a priori, debemos utilizar aquella forma que nos permita realizar la integración mostrada anteriormente.
Para una forma algebraica dada para la verosimilitud, las diferentes formas para la prob a priori (Θ) plantean diferentes niveles de dificultad para la determinación del marginal en el denominador y, por tanto, para la determinación de la posterior.
La prioridad conjugada de una distribución gaussiana es gaussiana. Del mismo modo, la prioridad conjugada de una distribución binomial es beta y la prioridad conjugada de una distribución multinomial es Dirichlet.
En resumen, la selección de la gaussiana para representar su prior se debe a la conveniencia matemática.