6 votos

Derivación alternativa del filtro de Kalman

Tome un modelo de espacio de estado de la forma

$y_t=\alpha_t+\epsilon_t$ donde $\epsilon_t\sim NID(0,\sigma_{\epsilon}^2)$

$\alpha_{t+1}=\alpha_t+\eta_t$ donde $\eta\sim NID(0,\sigma_{\eta}^2)$

Además, se supone que $E(\epsilon_t\eta_s) = 0$, para todos los $t,s$, es decir, los términos de error son independientes. Más, error tersma también independiente de $\alpha_1$, el estado inicial.

No entiendo por qué nos iba a aplicar este enfoque restrictivo de la asunción para el Filtro de Kalman cuando fácilmente podríamos estimar otros parámetros a través de la MLE. Por ejemplo, supongamos que $\mathbb{C}ov(\epsilon\eta) = I\sigma_{\eta,\epsilon}$, de modo que $E(\epsilon_t\eta_s) = 0$ todos los $t\neq s$$E(\epsilon_t\eta_s) = \sigma_{\eta,\epsilon} \neq 0$.

Estamos interesados en estimar el $a_{t+1}=\mathbb{E}(\alpha_{t+1}|Y_t)$ $P_{t+1}=\mathbb{V}ar(\alpha_{t+1}|Y_t)$ donde $Y_{t}=(y_1,y_2,...,y_t)'$. Además, sigo Durbin y Koopman libro de texto en el que $a_{t|t}=\mathbb{E}(\alpha_{t}|Y_t)$$P_{t|t}=\mathbb{V}ar(\alpha_{t}|Y_t)$.

Ahora, $a_{t+1}=\mathbb{E}(\alpha_{t+1}|Y_t) =\mathbb{E}(\alpha_{t}+\eta_t|Y_t)=\mathbb{E}(\alpha_{t}|Y_t)=a_{t|t}$$P_{t+1}=\mathbb{V}ar(\alpha_{t+1}|Y_t)=\mathbb{V}ar(\alpha_{t}+\eta_t|Y_t)=\mathbb{V}ar(\alpha_{t}|Y_t) + \mathbb{V}ar(\eta_{t}|Y_t) + 2 \mathbb{C}ov(\eta_t,\alpha_t|Y_t)=P_{t|t}+\sigma_{\eta}^2+2 \mathbb{C}ov(\eta_t,\alpha_t|Y_t)$.

Bajo la independencia, $\mathbb{C}ov(\eta_t,\alpha_t)=0$. Sin embargo, bajo mi suposición, $\mathbb{C}ov(\eta_t,\alpha_{t-1}+\eta_{t-1})=\mathbb{C}ov(\eta_t,y_t-\epsilon_t)=\mathbb{C}ov(\eta_t,-\epsilon_t)=-\sigma_{\eta,\epsilon}$, lo que conduce a:

$P_{t+1}= P_{t|t}+\sigma_{\eta}^2-2\sigma_{\eta,\epsilon}$.

Ahora, ya que todas las distribuciones son normales, $P_{t+1}$ $a_{t+1}$ se encuentran fácilmente si encontramos la expresión para el pdf de $\alpha_{t}|Y_t$ - el nombre de $f(\alpha_{t}|Y_t)$. A continuación,$f(\alpha_{t}|Y_t)=f(\alpha_{t}|Y_{t-1},y_t)=\frac{f(\alpha_{t},y_t|Y_{t-1})}{f(y_t|Y_{t-1})}=\frac{f(\alpha_{t}|Y_{t-1})f(y_t|Y_{t-1},\alpha_{t})}{f(y_t|Y_{t-1})}$.

Dado que estos archivos pdf están completamente definidas por su 1er y 2do momentos, sólo tenemos que calcular los como:

$\mathbb{E}(y_t|Y_{t-1})=\mathbb{E}(\alpha_t+\epsilon_t|Y_t)=a_t+0=a_t$

$\mathbb{V}ar(y_t|Y_{t-1})=\mathbb{V}ar(\alpha_t+\epsilon_t|Y_t)=\sigma_{\epsilon}+P_{t|t}$

$\mathbb{E}(y_t|Y_{t-1},\alpha_t) = \alpha_t$

$\mathbb{V}ar(y_t|Y_{t-1},\alpha_t) = \sigma_{\epsilon}$.

Sustituyendo en el pdf de arriba y cómputo de los rendimientos:

$f(\alpha_t|Y_t)=N(a_t+\frac{P_t}{P_t+\sigma_{\epsilon}^2}v_t,\frac{P_t\sigma_{\epsilon}^2}{P_t+\sigma_{\epsilon}^2})=N(a_{t|t},P_{t|t})$, donde defino $v_t=y_t-a_t$, del que se desprende que:

$a_{t+1}=a_{t|t}=a_t+\frac{P_t}{P_t+\sigma_{\epsilon}^2}v_t$

y

$P_{t+1}=P_{t|t}+\sigma_{\eta}^2-2\sigma_{\eta\epsilon}=\frac{P_t\sigma_{\epsilon}^2}{P_t+\sigma_{\epsilon}^2}+\sigma_{\eta}^2-2\sigma_{\eta\epsilon}$

A continuación, el Filtro de Kalman se convierte,

$v_t = y_t-a_t$

$F_t = \mathbb{V}ar(v_t|Y_{t-1})=P_t+\sigma_{\epsilon}^2$

$a_{t|t}=a_t+K_t v_t$

$P_{t|t}=P_t(1-K_t)$

$a_{t+1} = a_{t|t}$

$P_{t+1} = \frac{P_t\sigma_{\epsilon}^2}{P_t+\sigma_{\epsilon}^2}+\sigma_{\eta}^2-2\sigma_{\eta\epsilon}$ $t=1,...,n$ $K_t = P_t/F_t$ indica la Ganancia de Kalman. A continuación, $\sigma_{\eta\epsilon}$ podría ser estimado a través de la MLE, junto con los otros hyperparameters $\sigma_{\eta}$$\sigma_{\epsilon}$.

¿Tienen sentido o me estoy perdiendo algo aquí? Suponiendo que la derivación es correcto, ¿existe alguna desventaja de la estimación de $\sigma_{\eta\epsilon}$ a través de MLE?

Gracias

4voto

einverne Puntos 126

Tienes razón en que la covarianza parámetro puede ser estimado por máxima verosimilitud. Sin embargo, la atención es necesaria porque la inclusión de este parámetro adicional puede conducir a un problema de identificación de los parámetros.

Por ejemplo, tomemos el nivel local modelo definido de la siguiente manera: \begin{align} &y_t = m_t + \epsilon_t \,, &\epsilon_t \sim NID(0, \sigma^2_\epsilon) \\ &m_t = \mu + m_{t-1} + \eta_t \,, &\eta_t \sim NID(0, \sigma^2_\eta) \\ &E(\epsilon_t \eta_s) = \sigma_{\epsilon\eta} &\hbox{ if } t = s \hbox{ and } 0 \hbox{ otherwise} \,. \end{align}

Se puede comprobar que la autocovariances de este modelo son: \begin{align} \gamma(0) &= 2\sigma^2_\epsilon + \sigma^2_\eta + 2\sigma_{\epsilon\eta} \\ \gamma(1) &= -\sigma^2_\epsilon - \sigma_{\epsilon\eta} \\ \gamma(k) &= 0 \,, \quad \hbox{for } k > 1 \,. \end{align}

Dado que la muestra autocovariances $\gamma(k)$, no existe una única solución del sistema de ecuaciones, ya que tenemos dos ecuaciones a resolver y tres parámetros ($\sigma^2_\epsilon$, $\sigma^2_\eta$ y $\sigma_{\epsilon\eta}$). El común de restricción $\sigma_{\epsilon\eta} = 0$ por lo tanto puede ser interpretado como una identificación de la restricción.


Morley et al. (2003) [1] es una discusión interesante sobre este tema en el campo de la economía. Los autores se ajustan a un modelo que consta de una tendencia y una bicicleta estacionaria con y sin el cero de correlación de restricción entre los componentes.

[1] James C. Morley, Charles R. Nelson y Eric Zivot (2003). "¿Por qué la Beveridge-Nelson y No se ve-los Componentes de la Descomposición del PIB tan Diferentes?". La Revisión de la Economía y la Estadística. Vol. 85, Nº 2. URL http://research.economics.unsw.edu.au/jmorley/mnz03.pdf.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X