Recientemente me he interesado por los LSTM y me ha sorprendido saber que los pesos se comparten en el tiempo.
-
Sé que si compartes los pesos a través del tiempo, entonces tus secuencias de tiempo de entrada pueden tener una longitud variable.
-
Con los pesos compartidos tienes muchos menos parámetros que entrenar.
A mi entender, la razón por la que uno recurriría a una LSTM frente a otro método de aprendizaje es porque cree que hay algún tipo de estructura/dependencia temporal/secuencial en sus datos que le gustaría aprender. Si se sacrifica el "lujo" de la longitud variable y se acepta un largo tiempo de cálculo, ¿no funcionaría mejor una RNN/LSTM sin pesos compartidos (es decir, para cada paso de tiempo se tienen pesos diferentes) o hay algo que se me escapa?