5 votos

Significado de los tamaños de lote para RNNs/LSTMs y razones para el relleno

Tengo dos preguntas conceptuales sobre las RNN, en particular las LSTM, que no consigo resolver por mi cuenta ni con los tutoriales que encuentro en internet. Te agradecería mucho si me pudieras ayudar con lo siguiente:

  1. Si he entendido bien, el estados aprendidas dentro de una LSTM sólo son relevantes para una secuencia. Por tanto, para la siguiente secuencia los estados se "reaprenden" debido a $s_{t}=f(Ux_{t} + Ws_{t-1})$ con x siendo la entrada en el paso de tiempo t , s siendo el estado en el paso de tiempo t et U et W siendo las matrices que se aprenden. ¿Existe alguna buena razón por la que debería utilizar tamaños de lote mayores que 1 con RNNs/LSTMs especialmente? Conozco las diferencias entre el descenso de gradiente estocástico, el descenso de gradiente por lotes y el mini-descenso de gradiente por lotes, pero no por qué los dos últimos deben ser preferidos sobre el primero en RNNs/LSTMs.
  2. ¿Por qué se necesitan las mismas longitudes de secuencia dentro de un lote, es decir, por qué es necesario el relleno? Los estados se calculan para cada secuencia por separado, así que no veo la razón. ¿El backprop a través del tiempo necesita el mismo número de estados para cada secuencia, cuando se está ejecutando después de un lote?

5voto

Richard Huber Puntos 21
  1. El Estado no es realmente lo que se aprende. Los pesos que determinan el estado es donde se produce el aprendizaje. El estado sólo contiene una representación abstracta de lo que se ha visto hasta ahora en la secuencia, así que sí, el estado sólo es relevante para la secuencia actual.
    Las ventajas de tamaños de lote más grandes son una mejor paralelización y suavizar el gradiente para que las actualizaciones no sean tan ruidosas, y no tiene efecto sobre las celdas entre diferentes secuencias de entrenamiento.
  2. Tienes razón en que el relleno no es necesario y puedes operar con secuencias de longitudes diferentes. Pero el código es más fácil de escribir cuando espera que todas las secuencias tengan la misma longitud, así que eso es lo que verás normalmente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X