Significado de los tamaños de lote para RNNs/LSTMs y razones para el relleno

Question

Significado de los tamaños de lote para RNNs/LSTMs y razones para el relleno

Preguntado el 4 de Julio, 2017: Cuando se hizo la pregunta
2802 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo dos preguntas conceptuales sobre las RNN, en particular las LSTM, que no consigo resolver por mi cuenta ni con los tutoriales que encuentro en internet. Te agradecería mucho si me pudieras ayudar con lo siguiente:

Si he entendido bien, el estados aprendidas dentro de una LSTM sólo son relevantes para una secuencia. Por tanto, para la siguiente secuencia los estados se "reaprenden" debido a $s_{t}=f(Ux_{t} + Ws_{t-1})$ con x siendo la entrada en el paso de tiempo t , s siendo el estado en el paso de tiempo t et U et W siendo las matrices que se aprenden. ¿Existe alguna buena razón por la que debería utilizar tamaños de lote mayores que 1 con RNNs/LSTMs especialmente? Conozco las diferencias entre el descenso de gradiente estocástico, el descenso de gradiente por lotes y el mini-descenso de gradiente por lotes, pero no por qué los dos últimos deben ser preferidos sobre el primero en RNNs/LSTMs.
¿Por qué se necesitan las mismas longitudes de secuencia dentro de un lote, es decir, por qué es necesario el relleno? Los estados se calculan para cada secuencia por separado, así que no veo la razón. ¿El backprop a través del tiempo necesita el mismo número de estados para cada secuencia, cuando se está ejecutando después de un lote?

Preguntado el 4 de Julio, 2017 por wolfy

Answer 1

1 Respuestas

Answer 2

5voto

Richard Huber Puntos 21

El Estado no es realmente lo que se aprende. Los pesos que determinan el estado es donde se produce el aprendizaje. El estado sólo contiene una representación abstracta de lo que se ha visto hasta ahora en la secuencia, así que sí, el estado sólo es relevante para la secuencia actual.
Las ventajas de tamaños de lote más grandes son una mejor paralelización y suavizar el gradiente para que las actualizaciones no sean tan ruidosas, y no tiene efecto sobre las celdas entre diferentes secuencias de entrenamiento.
Tienes razón en que el relleno no es necesario y puedes operar con secuencias de longitudes diferentes. Pero el código es más fácil de escribir cuando espera que todas las secuencias tengan la misma longitud, así que eso es lo que verás normalmente.

Respondido el 9 de Julio, 2017 por Richard Huber (21 Puntos )

Significado de los tamaños de lote para RNNs/LSTMs y razones para el relleno

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Significado de los tamaños de lote para RNNs/LSTMs y razones para el relleno

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: