Aunque esta pregunta ya ha sido respondida, una forma útil de recordarla para situaciones más generales es la ley de las expectativas iteradas. Tenga en cuenta que la independencia para la predicción no se mantiene incluso si el "proceso verdadero" es independiente. Esto se debe a que las estimaciones no son independientes, a menos que se tenga $Z^{T}Z$ y $Z_{new}Z_{new}^{T}$ que ambos sean diagonales ("nuevos" para las predicciones)
Así que si dejas que $\hat{Y}_{ti}$ denotan los valores mensuales estimados en el año $t$ por mes $i$ y $\hat{X}_{t}$ denotan el valor anual estimado, tienes:
$$\hat{X}_{t}=\sum_{i=1}^{12}\hat{Y}_{ti}$$
$$Var(\hat{X}_{t})=E[Var(\hat{X}_{t}|\hat{Y}_{t,1},\dots,\hat{Y}_{t,12})]+Var[E(\hat{X}_{t}|\hat{Y}_{t,1},\dots,\hat{Y}_{t,12})]$$
(no estoy seguro de si debe ser un promedio o un total, si es un promedio, entonces divida mi resultado final para el error estándar por $12$ y dividir la varianza por $144$ ) Si conectamos una cosa con la otra, obtenemos:
$$Var(\hat{X}_{t})=E[Var(\sum_{i=1}^{12}\hat{Y}_{ti}|\hat{Y}_{t,1},\dots,\hat{Y}_{t,12})]+Var[E(\sum_{i=1}^{12}\hat{Y}_{ti}|\hat{Y}_{t,1},\dots,\hat{Y}_{t,12})]$$ $$=Var[\sum_{i=1}^{12}\hat{Y}_{ti}]=\sum_{i=1}^{12}\sum_{j=1}^{12}Cov(\hat{Y}_{tj},\hat{Y}_{ti})$$
Ahora bien, cuando se condiciona a algo, es una constante, por lo que el término de varianza "interna" desaparece.
Ahora tiene un modelo de regresión para $Y_{ti}$ por lo que sabemos que
$$\begin{array}{l l} \hat{Y}_{ti}=Z_{ti,new}^{T}\hat{\beta} & Cov(\hat{Y}_{ti},\hat{Y}_{sj})=s^{2}Z_{ti,new}^{T}(Z^{T}Z)^{-1}Z_{sj,new} \\ \hat{\beta}=(Z^{T}Z)^{-1}Z^{T}Y & s^{2}=\frac{1}{n-dim(\hat{\beta})}(Y-Z\hat{\beta})^{T}(Y-Z\hat{\beta}) \end{array}$$
Donde $Z$ y $Y$ son la matriz y el vector que usaste para ajustar la regresión (estoy asumiendo una regresión OLS aquí), $dim(\hat{\beta})$ es el número de betas que ha ajustado (incluyendo la intercepción). $Z_{ti,new}$ es un nuevo conjunto de coeficientes de regresión que se utilizará en la predicción.
Tenga en cuenta que para la predicción, sus estimaciones de $Y$ son no es independiente aunque los "valores verdaderos" lo sean. Así que la raíz cuadrada de $N$ regla no se aplica, a menos que su $Z$ son ortogonales, por lo que $(Z^{T}Z)^{-1}=I$ y $Z_{ti}^{T}Z_{sj}=0$ cuando $s\neq t$ o $i\neq j$ .
Introduciendo esto en la fórmula de la varianza para $\hat{X}_{t}$ nos encontramos con que:
$$Var(\hat{X}_{t})=\sum_{i=1}^{12}\sum_{j=1}^{12}s^{2}Z_{ti,new}^{T}(Z^{T}Z)^{-1}Z_{tj,new}=s^{2}J^{T}Z_{t,new}(Z^{T}Z)^{-1}Z_{t,new}^{T}J$$
Donde $J$ es una columna de 12 unos, y $Z_{t,new}$ es el doce $Z_{ti}^{T}$ filas para la predicción apiladas unas sobre otras, de dimensión $12\times dim(\hat{\beta})$ .
Pero ten en cuenta que también tenemos el proceso "verdadero" $X_{t}$ se supone que se rige por el modelo de regresión, por lo que volvemos a aplicar la ley de expectativas iteradas, pero condicionando a $\hat{X}_{t}$ esta vez:
$$Var(X_{t})=E[Var(X_{t}|\hat{X}_{t})]+Var[E(X_{t}|\hat{X}_{t})]=E[Var(\sum_{i=1}^{12}Y_{t}|\hat{Y}_{ti})]+Var[\hat{X}_{t}]$$ $$=E[\sum_{i=1}^{12}Var(Y_{ti})]+Var[\hat{X}_{t}]=12s^{2}+s^{2}J^{T}Z_{t,new}(Z^{T}Z)^{-1}Z_{t,new}^{T}J$$
Probablemente debería poner aprox porque esto es un "plug-in" de $s^{2}$ para la "verdadera varianza" $\sigma^{2}$ - Sin embargo, no conozco a mucha gente que no haga esto. También se justifica por motivos bayesianos como la forma adecuada de tener en cuenta la incertidumbre en la estimación $\sigma^{2}$ para el modelo normal, además de ser un estimador insesgado por motivos frecuentistas. Así que el error estándar anual debería ser realmente
$$s\sqrt{12+J^{T}Z_{t,new}(Z^{T}Z)^{-1}Z_{t,new}^{T}J}$$
Entonces, ¿qué $\sqrt{12}$ regla está haciendo esencialmente aquí es ignorar la incertidumbre en la estimación de las betas. Si ya se estiman las betas bastante bien, entonces esto hará poca diferencia en la $\sqrt{12}$ regla - probablemente algo como $\sqrt{13}$ . Si las betas no se estiman bien, o se está cerca de la multicolinealidad, el término extra puede ser importante.hb**
texto
**