Tengo dos preguntas conceptuales sobre las RNN, en particular las LSTM, que no consigo resolver por mi cuenta ni con los tutoriales que encuentro en internet. Te agradecería mucho si me pudieras ayudar con lo siguiente:
- Si he entendido bien, el estados aprendidas dentro de una LSTM sólo son relevantes para una secuencia. Por tanto, para la siguiente secuencia los estados se "reaprenden" debido a $s_{t}=f(Ux_{t} + Ws_{t-1})$ con
x
siendo la entrada en el paso de tiempot
,s
siendo el estado en el paso de tiempot
etU
etW
siendo las matrices que se aprenden. ¿Existe alguna buena razón por la que debería utilizar tamaños de lote mayores que 1 con RNNs/LSTMs especialmente? Conozco las diferencias entre el descenso de gradiente estocástico, el descenso de gradiente por lotes y el mini-descenso de gradiente por lotes, pero no por qué los dos últimos deben ser preferidos sobre el primero en RNNs/LSTMs. - ¿Por qué se necesitan las mismas longitudes de secuencia dentro de un lote, es decir, por qué es necesario el relleno? Los estados se calculan para cada secuencia por separado, así que no veo la razón. ¿El backprop a través del tiempo necesita el mismo número de estados para cada secuencia, cuando se está ejecutando después de un lote?