Supongamos el siguiente modelo de regresión bivariado: $$ y_i = \beta x_i + u_i, $$ donde $u_i$ es yo.yo.d$N(0, \sigma^2 = 9)$$i = 1,\ldots, n$.
Asumir una noninformative antes de $p(\beta) \propto \text{constant}$, entonces se puede demostrar que la parte posterior de pdf para $\beta$ es $$ p(\beta|\mathbf{y}) = (18\pi)^{-\frac{1}{2}}\left(\sum_{i=1}^n x_i^2\right)^{\frac{1}{2}} \exp\left[-\frac{1}{18}\sum_{i=1}^n x_i^2 (\beta \hat{\beta})^2\right], $$ donde $\hat{\beta} = (\sum_{i=1}^n y_ix_i)/(\sum_{i=1}^n x_i^2).$
Ahora, considere el valor de $y$ con un determinado valor futuro de $x$, $x_{n+1}$: $$ y_{n+1} = \beta x_{n+1} + u_{n+1}, $$ donde $u_{n+1}$ es yo.yo.d $N(0, \sigma^2 = 9)$, entonces podemos demostrar que $$ p(y_{n+1}|x_{n+1},\mathbf{y}) = \int_{\beta} p(y_{n+1}|x_{n+1}, \beta \mathbf{y}) p(\beta|\mathbf{y})d\beta $$ es una densidad normal con esperanza y varianza $$ E[y_{n+1}|x_{n+1},\mathbf{y}] = \hat{\beta}x_{n+1},\quad {\rm var}[y_{n+1}|x_{n+1},\mathbf{y}] = \frac{9[x_{n+1}^2 + \sum_{i=1}^n x_i^2]}{\sum_{i=1}^n x_i^2}. $$ Por lo tanto la parte posterior de la función de densidad de probabilidad para $y_{n+1}$, condicionado a $x_{n+1}$, es \begin{align} p(y_{n+1}|x_{n+1},\mathbf{y}) = &\left(\frac{18\pi\left[x_{n+1}^2 + \displaystyle{\sum_{i=1}^n x_i^2}\right]}{ \displaystyle{\sum_{i=1}^n x_i^2}}\right)^{-\frac{1}{2}} \\ & \times \exp\left\{-\frac{\displaystyle{\sum_{i=1}^n x_i^2}}{18\left(x_{n+1}^2 + \displaystyle{\sum_{i=1}^n x_i^2}\right)}\left(y_{n+1}-\hat{\beta}x_{n+1}\right)^2\right\} \end{align}
Ahora la pregunta es: Especificar un 95% de intervalo de predicción para $y_{n+1}$ e interpretar cuidadosamente. Qué aspecto(s) de los datos de proceso de generación de qué el intervalo de no dar cabida a nuestra incertidumbre acerca de?
No estoy exactamente seguro de cómo responder a la pregunta, pero aquí está mi intento:
Así que básicamente tenemos que encontrar algo de $a$ $b$ tal que $P(a < y_{n+1} < b) = \int_{a}^b p(y_{n+1}|x_{n+1}, \mathbf{y}) dy_{n+1} = 95\%$
Ahora sabemos que $y_{n+1}|x_{n+1}, \mathbf{y} \sim N(m, v^2)$ donde$m = E[y_{n+1}|x_{n+1},\mathbf{y}]$$v^2 = var[y_{n+1}|x_{n+1},\mathbf{y}]$, por lo tanto: $$\frac{y_{n+1}-m}{v} \sim N(0,1)$$ $$P(-1.96 < \frac{y_{n+1}-m}{v} < 1.96) = 95\%$$ $$P(-1.96v+m < y_{n+1} < 1.96v+m) = 95\%$$
Ahora, porque estamos acondicionado en $x_{n+1}$ y mirar la expresión de $v$$m$, vemos que tanto $v$ $m$ son valores conocidos. Así que podemos aprovechar $a = -1.96v+m$$b = 1.96v+m$. es decir, podemos seleccionar otras muchas posibilidades de $a$ $b$ que producen una probabilidad de $95\%$... pero, ¿cómo se relaciona esto con responder a la parte de la pregunta que le pregunta ¿qué aspectos de los datos de proceso de generación de este intervalo de falla a acomodar?