Como recientemente me he interesado por los filtros de Kalman y las redes neuronales recurrentes, me parece que ambos están estrechamente relacionados, pero no encuentro suficiente literatura al respecto:
En un filtro de Kalman, el conjunto de ecuaciones es : $$x_{k} = Ax_{k-1} + Bu_{k} + w_{k-1}$$ $$ z_k = Hx_k + v_k$$
con $x$ el estado y $z$ la medición.
En una RNN de Elman (de ici ), la relación entre las capas es $$h_{k} = \sigma_h (Uh_{k-1} + Wx_{k} + b)$$ $$ y_k = \sigma_y (Vh_k + c)$$
con $x$ la capa de entrada, $h$ la capa oculta y $y$ la capa de salida y $\sigma$ son las funciones de activación de las capas.
Está claro que los dos conjuntos de ecuaciones son iguales, módulo de las activaciones. La analogía aquí parece ser la siguiente. La capa de salida corresponde al estado medido, la capa oculta es el estado verdadero, impulsado por un proceso $x$ que es la capa de entrada.
-
Primera pregunta: ¿es viable la analogía? Y ¿cómo podemos interpretar las activaciones?
-
Segunda pregunta : en un filtro de Kalman el $A$ es la de la dinámica subyacente del estado $x$ . Dado que el entrenamiento de una RNN permite aprender la $W$ ¿son capaces las RNN de aprender la dinámica del estado subyacente? Es decir, una vez que mi RNN está entrenada, ¿puedo mirar los coeficientes de mi red para adivinar la dinámica de mis datos?
(Voy a intentar hacer el experimento con datos generados artificialmente, para ver si esto funciona, y actualizaré en cuanto esté hecho)
EDIT : Me gustaría tener acceso a este documento