Aprender en una ESN no está principalmente forzado a adaptar pesos, sino que respectivamente la capa de salida aprende qué salida producir para el estado actual que tiene la red. El estado interno se basa en la dinámica de la red y se llama estado del reservorio dinámico. Para entender cómo se forman los estados del reservorio, tenemos que mirar la topología de una ESN.
La(s) unidad(es) de entrada están conectadas a neuronas en las unidades internas (unidades de reservorio), los pesos se inicializan al azar. Las unidades del reservorio están conectadas al azar y de manera dispersa y también tienen pesos aleatorios. La unidad de salida también está conectada a todas las unidades del reservorio, por lo que recibe el estado del reservorio y produce una salida correspondiente.
La activación de la entrada aumenta la dinámica de la red. La señal flota $t$ pasos de tiempo a través de las unidades del reservorio conectadas recurrentemente. Puedes imaginarlo como un eco que ocurre $t$ veces en la red (que se distorsiona). Los únicos pesos que se adaptan son los pesos hacia la unidad de salida. Esto significa que la capa de salida aprende qué salida debe pertenecer a un determinado estado del reservorio. Eso también significa que el entrenamiento se convierte en una tarea de regresión lineal.
Antes de poder explicar cómo funciona el entrenamiento en detalle, tenemos que explicar y definir algunas cosas:
El Teacher Forcing significa alimentar la entrada de series temporales en la red, así como la salida deseada correspondiente (con retraso en el tiempo). Alimentar la salida deseada de $T$ en $t$ se llama retroalimentación de salida. Por lo tanto, necesitamos algunos pesos inicializados al azar almacenados en la matriz $W_{fb}$. En la figura 1, esos bordes se muestran con flechas punteadas.
Definiciones de variables:
- $r$ = número de unidades de reservorio,
- $o$ = número de unidades de salida,
- $t$ = número de pasos de tiempo,
- $o$ = número de unidades de salida.
- $T$ = Matriz (de tamaño $t$ x $o$) que contiene la salida deseada para cada paso de tiempo.
Finalmente, ¿cómo funciona el entrenamiento en detalle?
- Registrar los estados del reservorio durante $t$ pasos de tiempo mientras se aplica el Teacher Forcing. La salida es: Una matriz $M$ de estados de reservorio ($t$ x $r$).
- Determinar la matriz de peso de salida $W_{out}$ que contiene los pesos de salida finales. Se puede calcular utilizando cualquier técnica de regresión, por ejemplo, utilizando la pseudoinversa. Esto significa, mirar los estados del reservorio y encontrar una función para mapearlos multiplicados por los pesos de salida a la salida. Matemáticamente: Aproximar $M \bullet W_{out} = T -> W_{out} = M \bullet T^{-1}$
Debido a que el aprendizaje es muy rápido, podemos probar muchas topologías de red para encontrar una que se ajuste bien.
Para medir el rendimiento de una ESN:
- Ejecutar la Red de Estado de Eco más tiempo sin Teacher Forcing (su propia salida se retroalimenta en el reservorio dinámico de la ESN a través de $W_{fb}$).
- Registrar el rendimiento, como errores cuadrados $\left|\left|M \bullet W_{out} – T\right|\right|^2$
Radio Espectral y ESN
Algunas personas inteligentes han demostrado que la Propiedad de Estado de Eco de una ESN solo se cumple si el Radio Espectral de la matriz de pesos del reservorio es menor o igual a $1$. La Propiedad de Estado de Eco significa que el sistema olvida sus entradas después de un tiempo limitado. Esta propiedad es necesaria para que una ESN no explote en actividad y pueda aprender.