Tome un modelo de espacio de estado de la forma
$y_t=\alpha_t+\epsilon_t$ donde $\epsilon_t\sim NID(0,\sigma_{\epsilon}^2)$
$\alpha_{t+1}=\alpha_t+\eta_t$ donde $\eta\sim NID(0,\sigma_{\eta}^2)$
Además, se supone que $E(\epsilon_t\eta_s) = 0$, para todos los $t,s$, es decir, los términos de error son independientes. Más, error tersma también independiente de $\alpha_1$, el estado inicial.
No entiendo por qué nos iba a aplicar este enfoque restrictivo de la asunción para el Filtro de Kalman cuando fácilmente podríamos estimar otros parámetros a través de la MLE. Por ejemplo, supongamos que $\mathbb{C}ov(\epsilon\eta) = I\sigma_{\eta,\epsilon}$, de modo que $E(\epsilon_t\eta_s) = 0$ todos los $t\neq s$$E(\epsilon_t\eta_s) = \sigma_{\eta,\epsilon} \neq 0$.
Estamos interesados en estimar el $a_{t+1}=\mathbb{E}(\alpha_{t+1}|Y_t)$ $P_{t+1}=\mathbb{V}ar(\alpha_{t+1}|Y_t)$ donde $Y_{t}=(y_1,y_2,...,y_t)'$. Además, sigo Durbin y Koopman libro de texto en el que $a_{t|t}=\mathbb{E}(\alpha_{t}|Y_t)$$P_{t|t}=\mathbb{V}ar(\alpha_{t}|Y_t)$.
Ahora, $a_{t+1}=\mathbb{E}(\alpha_{t+1}|Y_t) =\mathbb{E}(\alpha_{t}+\eta_t|Y_t)=\mathbb{E}(\alpha_{t}|Y_t)=a_{t|t}$$P_{t+1}=\mathbb{V}ar(\alpha_{t+1}|Y_t)=\mathbb{V}ar(\alpha_{t}+\eta_t|Y_t)=\mathbb{V}ar(\alpha_{t}|Y_t) + \mathbb{V}ar(\eta_{t}|Y_t) + 2 \mathbb{C}ov(\eta_t,\alpha_t|Y_t)=P_{t|t}+\sigma_{\eta}^2+2 \mathbb{C}ov(\eta_t,\alpha_t|Y_t)$.
Bajo la independencia, $\mathbb{C}ov(\eta_t,\alpha_t)=0$. Sin embargo, bajo mi suposición, $\mathbb{C}ov(\eta_t,\alpha_{t-1}+\eta_{t-1})=\mathbb{C}ov(\eta_t,y_t-\epsilon_t)=\mathbb{C}ov(\eta_t,-\epsilon_t)=-\sigma_{\eta,\epsilon}$, lo que conduce a:
$P_{t+1}= P_{t|t}+\sigma_{\eta}^2-2\sigma_{\eta,\epsilon}$.
Ahora, ya que todas las distribuciones son normales, $P_{t+1}$ $a_{t+1}$ se encuentran fácilmente si encontramos la expresión para el pdf de $\alpha_{t}|Y_t$ - el nombre de $f(\alpha_{t}|Y_t)$. A continuación,$f(\alpha_{t}|Y_t)=f(\alpha_{t}|Y_{t-1},y_t)=\frac{f(\alpha_{t},y_t|Y_{t-1})}{f(y_t|Y_{t-1})}=\frac{f(\alpha_{t}|Y_{t-1})f(y_t|Y_{t-1},\alpha_{t})}{f(y_t|Y_{t-1})}$.
Dado que estos archivos pdf están completamente definidas por su 1er y 2do momentos, sólo tenemos que calcular los como:
$\mathbb{E}(y_t|Y_{t-1})=\mathbb{E}(\alpha_t+\epsilon_t|Y_t)=a_t+0=a_t$
$\mathbb{V}ar(y_t|Y_{t-1})=\mathbb{V}ar(\alpha_t+\epsilon_t|Y_t)=\sigma_{\epsilon}+P_{t|t}$
$\mathbb{E}(y_t|Y_{t-1},\alpha_t) = \alpha_t$
$\mathbb{V}ar(y_t|Y_{t-1},\alpha_t) = \sigma_{\epsilon}$.
Sustituyendo en el pdf de arriba y cómputo de los rendimientos:
$f(\alpha_t|Y_t)=N(a_t+\frac{P_t}{P_t+\sigma_{\epsilon}^2}v_t,\frac{P_t\sigma_{\epsilon}^2}{P_t+\sigma_{\epsilon}^2})=N(a_{t|t},P_{t|t})$, donde defino $v_t=y_t-a_t$, del que se desprende que:
$a_{t+1}=a_{t|t}=a_t+\frac{P_t}{P_t+\sigma_{\epsilon}^2}v_t$
y
$P_{t+1}=P_{t|t}+\sigma_{\eta}^2-2\sigma_{\eta\epsilon}=\frac{P_t\sigma_{\epsilon}^2}{P_t+\sigma_{\epsilon}^2}+\sigma_{\eta}^2-2\sigma_{\eta\epsilon}$
A continuación, el Filtro de Kalman se convierte,
$v_t = y_t-a_t$
$F_t = \mathbb{V}ar(v_t|Y_{t-1})=P_t+\sigma_{\epsilon}^2$
$a_{t|t}=a_t+K_t v_t$
$P_{t|t}=P_t(1-K_t)$
$a_{t+1} = a_{t|t}$
$P_{t+1} = \frac{P_t\sigma_{\epsilon}^2}{P_t+\sigma_{\epsilon}^2}+\sigma_{\eta}^2-2\sigma_{\eta\epsilon}$ $t=1,...,n$ $K_t = P_t/F_t$ indica la Ganancia de Kalman. A continuación, $\sigma_{\eta\epsilon}$ podría ser estimado a través de la MLE, junto con los otros hyperparameters $\sigma_{\eta}$$\sigma_{\epsilon}$.
¿Tienen sentido o me estoy perdiendo algo aquí? Suponiendo que la derivación es correcto, ¿existe alguna desventaja de la estimación de $\sigma_{\eta\epsilon}$ a través de MLE?
Gracias