3 votos

Ayuda para entender la Derivación de la Posterior en el Proceso Gaussiano

Según el libro de texto Gaussian Process in Machine Learning, se da que \begin {align*} p(w \mid X,y) & \propto \exp\left (- \frac {1}{2 \sigma_n ^2}(y-X^Tw)(y-X^Tw) \right ) \exp\left (- \frac {1}{2}w^T \Sigma_ {p}^{-1}w \right ) \\ & \propto \exp\left (- \frac {1}{2}(w- \bar {w})^T \left ( \frac {1}{ \sigma_n ^2}XX^T + \Sigma_p ^{-1} \right )(w- \bar {w}) \right ) \end {align*} donde $\bar{w} = \sigma_n^{-2}(\sigma_n^{-2}XX^T + \Sigma_p^{-1})^{-1}Xy$ .

No puedo entender cómo el primer paso lleva al segundo. ¿Puede alguien mostrarme cómo se hace la derivación? Gracias

4voto

Michael Hardy Puntos 128804

Es necesario que muestre \begin {align} & \frac1 { \sigma_n ^2}(y-X^Tw)^T(y-X^Tw) + w^T \Sigma_ {p}^{-1}w \\ [10pt] = {} & (w- \bar {w})^T \left ( \frac {1}{ \sigma_n ^2}XX^T + \Sigma_p ^{-1} \right )(w- \bar {w}) + \text {constante} \end {align} y tenga en cuenta que "constante" significa sin depender de $w.$

Tuvo un error tipográfico: $(y-X^Tw)^T$ era necesario donde se tiene $y-X^Tw$ .

Necesitas esto: \begin {align} & \frac1 { \sigma_n ^2}(y-X^Tw)^T(y-X^Tw) + w^T \Sigma_ {p}^{-1}w \\ [10pt] = {} & \frac 1 { \sigma_n ^2} \left ( y^Ty - y^T X^T w - w^T Xy + w^TXX^T w \right ) + w^T \Sigma_p ^{-1} w \\ [10pt] = {} & w^T A w - b^T w - w^T b + \text {constante} \tag 1 \\ [10pt] \overset { \Large\text {?}}= {} & (w- \bar {w})^T \left ( \frac {1}{ \sigma_n ^2}XX^T + \Sigma_p ^{-1} \right )(w- \bar {w}) + \text {constante} \end {align} donde $$ A = \frac 1 {\sigma_n^2} X^T X + \Sigma_p^{-1} \quad \text{and} \quad b = Xy. $$

Así que la pregunta es: ¿Cómo se completa el cuadrado en una expresión como $(1)$ ?

Aquí necesitamos el hecho de que la matriz $A$ es una matriz simétrica no negativa-definida con entradas reales, y que tales matrices pueden ser diagonalizadas por matrices ortogonales, y las entradas diagonales (que son los valores propios) son no negativas, y tomando raíces cuadradas de las entradas diagonales se puede encontrar una raíz cuadrada simétrica no negativa-definida de $A$ que llamemos $A^{1/2}$ .

Aquí voy a suponer $X$ es una matriz con filas linealmente independientes (y, por supuesto, suele tener más filas que columnas). De ello se desprende que $A$ y $A^{1/2}$ son invertibles, por lo que podemos hablar de $A^{-1/2}$ que también es una matriz simétrica positiva-definida.

Entonces tenemos \begin {align} & w^T A w -b^T w - w^T b \\ [10pt] = {} & (A^{1/2} w)^T (A^{1/2} w) - (A^{-1/2}b)^T (A^{1/2}w) - (A^{1/2} w)^T (A^{-1/2} b) \\ [15pt] \text {y así } & (A^{1/2} w)^T (A^{1/2} w) - (A^{-1/2}b)^T (A^{1/2}w) - (A^{1/2} w)^T (A^{-1/2} b) + b^T A^{-1} b \\ [10pt] = {} & (A^{1/2} w - A^{-1/2} b)^T (A^{1/2} w - A^{-1/2} b). \end {align}

A partir de ahí, proceda según la respuesta incompleta de Ulfgard.

2voto

Ulfgard Puntos 56

¿Qué has probado tú? Los pasos a seguir son:

  1. expande el término cuadrático (lo más fácil es en el dominio logarítmico para deshacerse de la exp...)
  2. reúna todos los términos que implican a y (formarán $\bar{w}$ )
  3. crear el término cuadrático utilizando la técnica de "completar los cuadrados"
  4. después tienes un término cuadrático superfluo que no depende de $w$ . esto será tragado por el $\propto$

también puedes echar un vistazo al ejemplo estándar de multiplicar dos distribuciones gaussianas, ya que es esencialmente lo mismo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X