Suponga que tiene una variable explicativa ${\bf{X}} = \left(X(s_{1}),\ldots,X(s_{n})\right)$ donde $s$ representa una coordenada determinada. También tiene una variable de respuesta ${\bf{Y}} = \left(Y(s_{1}),\ldots,Y(s_{n})\right)$ . Ahora, podemos combinar ambas variables como:
$${\bf{W}}({\bf{s}}) = \left( \begin{array}{ccc}X(s) \\ Y(s) \end{array} \right) \sim N(\boldsymbol{\mu}(s), T)$$
En este caso, simplemente elegimos $\boldsymbol{\mu}(s) = \left( \mu_{1} \; \; \mu_{2}\right)^{T}$ y $T$ es una matriz de covarianza que describe la relación entre $X$ y $Y$ . Esto sólo describe el valor de $X$ y $Y$ en $s$ . Como tenemos más puntos de otros lugares para $X$ y $Y$ podemos describir más valores de ${\bf{W}}(s)$ de la siguiente manera:
$$\left( \begin{array}{ccc} {\bf{X}} \\ {\bf{Y}} \end{array}\right) = N\left(\left(\begin{array}{ccc}\mu_{1}\boldsymbol{1}\\ \mu_{2}\boldsymbol{1}\end{array}\right), T\otimes H(\phi)\right)$$
Observará que hemos reordenado los componentes de $\bf{X}$ y $\bf{Y}$ para obtener todos los $X(s_i)$ en una columna y después, concatenar todos los $Y(s_i)$ juntos. Cada componente $H(\phi)_{ij}$ es una función de correlación $\rho(s_i, s_j)$ y $T$ es como el anterior. La razón por la que tenemos la covarianza $T\otimes H(\phi)$ es porque suponemos que es posible separar la matriz de covarianza como $C(s, s')=\rho(s, s') T$ .
Pregunta 1: Cuando calculo la condicional ${\bf{Y}}\mid{\bf{X}}$ lo que realmente estoy haciendo es generar un conjunto de valores de $\bf{Y}$ basado en $\bf{X}$ ¿correcto? Ya tengo $\bf{Y}$ por lo que estaría más interesado en predecir un nuevo punto $y(s_{0})$ . En este caso, debería tener una matriz $H^{*}(\phi)$ definido como
$$H^{*}(\phi) = \left(\begin{array}{ccc}H(\phi) & \boldsymbol{h} \\ \boldsymbol{h}& \rho(0,\phi) \end{array}\right)$$
en el que $\boldsymbol{h}(\phi)$ es un vector $\rho(s_{0} - s_{j};\phi)$ . Por lo tanto, podemos construir un vector (sin reordenación):
$${\bf{W^{*}}} = \left({\bf{W}}(s_{1}), \ldots, {\bf{W}}(s_{n}), {\bf{W}}(s_{0})\right)^{T} \sim N\left(\begin{array}{ccc}\boldsymbol{1}_{n+1} \otimes \left( \begin{array}{ccc} \mu_{1} \\ \mu_{2} \end{array} \right)\end{array}, H(\phi)^{*}\otimes T\right)$$
Y ahora sólo reordeno para obtener una distribución conjunta $\left(\begin{array}{ccc} {\bf{X}} \\ x(s_0) \\{\bf{Y}} \\ y(s_0)\end{array} \right)$ y obtener el condicional $p(y(s_0)\mid x_0, {\bf{X}}, {\bf{Y}})$ .
¿Es esto correcto?
Pregunta 2: Para predecir, el documento que estoy leyendo indica que debo utilizar esta distribución condicional $p(y(s_0)\mid x_0, {\bf{X}}, {\bf{Y}})$ y obtener una distribución posterior $p(\mu, T, \phi\mid x(s_0), {\bf{Y}}, {\bf{X}})$ pero no estoy seguro de cómo obtener la distribución posterior de los parámetros. Tal vez podría utilizar la distribución $\left(\begin{array}{ccc}{\bf{X}} \\ x(s_0)\\ {\bf{Y}}\end{array}\right)$ que creo que es exactamente lo mismo que $p({\bf{X}}, x(s_0), {\bf{Y}}\mid\mu, T, \phi)$ y luego simplemente utilizar el teorema de Bayes para obtener $p(\mu, T, \phi\mid {\bf{X}}, x(s_0), {\bf{Y}}) \propto p({\bf{X}}, x(s_0), {\bf{Y}}\mid\mu, T, \phi)p(\mu, T, \phi)$
Pregunta 3: Al final del subcapítulo, el autor dice lo siguiente:
Para la predicción, no tenemos ${\bf{X}}(s_0)$ . Esto no crea ningún problema nuevo problemas, ya que puede tratarse como una variable latente e incorporarse en $\bf{x}'$ Esto sólo da lugar a un sorteo adicional dentro de cada iteración de Gibbs y es una adición trivial a la tarea computacional.
¿Qué significa ese párrafo?
Por cierto, este procedimiento se puede encontrar en este documento (página 8), pero como puedes ver, necesito un poco más de detalle.
Gracias.