11 votos

Modelización bayesiana mediante normal multivariante con covariante

Suponga que tiene una variable explicativa ${\bf{X}} = \left(X(s_{1}),\ldots,X(s_{n})\right)$ donde $s$ representa una coordenada determinada. También tiene una variable de respuesta ${\bf{Y}} = \left(Y(s_{1}),\ldots,Y(s_{n})\right)$ . Ahora, podemos combinar ambas variables como:

$${\bf{W}}({\bf{s}}) = \left( \begin{array}{ccc}X(s) \\ Y(s) \end{array} \right) \sim N(\boldsymbol{\mu}(s), T)$$

En este caso, simplemente elegimos $\boldsymbol{\mu}(s) = \left( \mu_{1} \; \; \mu_{2}\right)^{T}$ y $T$ es una matriz de covarianza que describe la relación entre $X$ y $Y$ . Esto sólo describe el valor de $X$ y $Y$ en $s$ . Como tenemos más puntos de otros lugares para $X$ y $Y$ podemos describir más valores de ${\bf{W}}(s)$ de la siguiente manera:

$$\left( \begin{array}{ccc} {\bf{X}} \\ {\bf{Y}} \end{array}\right) = N\left(\left(\begin{array}{ccc}\mu_{1}\boldsymbol{1}\\ \mu_{2}\boldsymbol{1}\end{array}\right), T\otimes H(\phi)\right)$$

Observará que hemos reordenado los componentes de $\bf{X}$ y $\bf{Y}$ para obtener todos los $X(s_i)$ en una columna y después, concatenar todos los $Y(s_i)$ juntos. Cada componente $H(\phi)_{ij}$ es una función de correlación $\rho(s_i, s_j)$ y $T$ es como el anterior. La razón por la que tenemos la covarianza $T\otimes H(\phi)$ es porque suponemos que es posible separar la matriz de covarianza como $C(s, s')=\rho(s, s') T$ .

Pregunta 1: Cuando calculo la condicional ${\bf{Y}}\mid{\bf{X}}$ lo que realmente estoy haciendo es generar un conjunto de valores de $\bf{Y}$ basado en $\bf{X}$ ¿correcto? Ya tengo $\bf{Y}$ por lo que estaría más interesado en predecir un nuevo punto $y(s_{0})$ . En este caso, debería tener una matriz $H^{*}(\phi)$ definido como

$$H^{*}(\phi) = \left(\begin{array}{ccc}H(\phi) & \boldsymbol{h} \\ \boldsymbol{h}& \rho(0,\phi) \end{array}\right)$$

en el que $\boldsymbol{h}(\phi)$ es un vector $\rho(s_{0} - s_{j};\phi)$ . Por lo tanto, podemos construir un vector (sin reordenación):

$${\bf{W^{*}}} = \left({\bf{W}}(s_{1}), \ldots, {\bf{W}}(s_{n}), {\bf{W}}(s_{0})\right)^{T} \sim N\left(\begin{array}{ccc}\boldsymbol{1}_{n+1} \otimes \left( \begin{array}{ccc} \mu_{1} \\ \mu_{2} \end{array} \right)\end{array}, H(\phi)^{*}\otimes T\right)$$

Y ahora sólo reordeno para obtener una distribución conjunta $\left(\begin{array}{ccc} {\bf{X}} \\ x(s_0) \\{\bf{Y}} \\ y(s_0)\end{array} \right)$ y obtener el condicional $p(y(s_0)\mid x_0, {\bf{X}}, {\bf{Y}})$ .

¿Es esto correcto?

Pregunta 2: Para predecir, el documento que estoy leyendo indica que debo utilizar esta distribución condicional $p(y(s_0)\mid x_0, {\bf{X}}, {\bf{Y}})$ y obtener una distribución posterior $p(\mu, T, \phi\mid x(s_0), {\bf{Y}}, {\bf{X}})$ pero no estoy seguro de cómo obtener la distribución posterior de los parámetros. Tal vez podría utilizar la distribución $\left(\begin{array}{ccc}{\bf{X}} \\ x(s_0)\\ {\bf{Y}}\end{array}\right)$ que creo que es exactamente lo mismo que $p({\bf{X}}, x(s_0), {\bf{Y}}\mid\mu, T, \phi)$ y luego simplemente utilizar el teorema de Bayes para obtener $p(\mu, T, \phi\mid {\bf{X}}, x(s_0), {\bf{Y}}) \propto p({\bf{X}}, x(s_0), {\bf{Y}}\mid\mu, T, \phi)p(\mu, T, \phi)$

Pregunta 3: Al final del subcapítulo, el autor dice lo siguiente:

Para la predicción, no tenemos ${\bf{X}}(s_0)$ . Esto no crea ningún problema nuevo problemas, ya que puede tratarse como una variable latente e incorporarse en $\bf{x}'$ Esto sólo da lugar a un sorteo adicional dentro de cada iteración de Gibbs y es una adición trivial a la tarea computacional.

¿Qué significa ese párrafo?

Por cierto, este procedimiento se puede encontrar en este documento (página 8), pero como puedes ver, necesito un poco más de detalle.

Gracias.

2voto

Lev Puntos 2212

Pregunta 1: Dado su modelo de probabilidad conjunta $$\left( \begin{array}{ccc} {\bf{X}} \\ {\bf{Y}} \end{array}\right) \sim N\left(\left(\begin{array}{ccc}\mu_{1}\boldsymbol{1}\\ \mu_{2}\boldsymbol{1}\end{array}\right), \begin{bmatrix} \boldsymbol\Sigma_{11} & \boldsymbol\Sigma_{12} \\ \boldsymbol\Sigma_{21} & \boldsymbol\Sigma_{22} \end{bmatrix} \right)=N\left(\left(\begin{array}{ccc}\mu_{1}\boldsymbol{1}\\ \mu_{2}\boldsymbol{1}\end{array}\right), T\otimes H(\phi)\right)$$ el distribución condicional de $\bf{Y}$ dado $\bf{X}$ también es Normal, con media $$\boldsymbol\mu_2 + \boldsymbol\Sigma_{21} \boldsymbol\Sigma_{11}^{-1} \left( \mathbf{X} - \boldsymbol\mu_1\right)$$ y la matriz de varianza-covarianza $$\boldsymbol\Sigma_{22} - \boldsymbol\Sigma_{21} \boldsymbol\Sigma_{11}^{-1} \boldsymbol\Sigma_{21}.$$ _(Estas fórmulas están copiadas literalmente de la página de Wikipedia sobre las normales multivariantes .)_ Lo mismo ocurre con $p(y(s_0)\mid x(s_0), {\bf{X}}, {\bf{Y}})$ desde $(y(s_0), x(s_0), {\bf{X}}, {\bf{Y}})$ es otro vector normal.


Pregunta 2: La predicción $p(y(s_0)\mid x(s_0), {\bf{X}}, {\bf{Y}})$ se define como $$ p(y(s_0) | x(s_0), {\bf{X}}, {\bf{Y}})=\int p(y(s_0)| x(s_0), {\bf{X}}, {\bf{Y}},\mu,T,\phi)\,p(\mu,T,\phi| x(s_0), {\bf{X}}, {\bf{Y}})\,\text{d}\mu\,\text{d} T\,\text{d}\phi\,, $$ es decir, integrando los parámetros mediante la distribución posterior de esos posteriors, dados los datos actuales $({\bf{X}}, {\bf{Y}},x(s_0))$ . Así que hay un poco más de respuesta completa. Obviamente, si sólo necesitas simular desde la predicción, tu noción de simular conjuntamente desde $p(\mu, T, \phi\mid {\bf{X}}, x(s_0), {\bf{Y}})$ y luego de $p(y(s_0)\mid x(s_0), {\bf{X}}, {\bf{Y}},\mu,T,\phi)$ es válido.


Pregunta 3: En el caso de que $x(s_0)$ no se observa, el par $(x(s_0),y(s_0))$ puede predecirse a partir de otra predicción $$ p(x(s_0),y(s_0)\mid {\bf{X}}, {\bf{Y}})=\int p(x(s_0),y(s_0)\mid {\bf{X}}, {\bf{Y}},\mu,T,\phi)\,p(\mu,T,\phi\mid {\bf{X}}, {\bf{Y}})\,\text{d}\mu\,\text{d} T\,\text{d}\phi\,. $$

Cuando se simula a partir de esta predicción, al no estar disponible de forma manejable, un Muestreador Gibbs que simula iterativamente

  1. $\mu\mid {\bf{X}}, {\bf{Y}},x(s_0),y(s_0),T,\phi$
  2. $T\mid {\bf{X}}, {\bf{Y}},x(s_0),y(s_0),\mu,\phi$
  3. $\phi\mid {\bf{X}}, {\bf{Y}},x(s_0),y(s_0),T,\mu$
  4. $x(s_0)\mid {\bf{X}}, {\bf{Y}},y(s_0),\phi,T,\mu$
  5. $y(s_0)\mid {\bf{X}}, {\bf{Y}},x(s_0),\phi,T,\mu$

o bien fusionar los pasos 4 y 5 en un solo paso

  • $x(s_0),y(s_0)\mid {\bf{X}}, {\bf{Y}},\phi,T,\mu$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X