Tal vez. Pero RNNs no.
Los transformadores de aprender "pseudo-temporal" de las relaciones; les falta la verdadera recurrente gradiente que RNNs tienen, y por lo tanto extraer fundamentalmente diferentes características. Este papel, por ejemplo, muestra que el estándar de los transformadores son difíciles de optimizar en el aprendizaje por refuerzo, sobre todo en la memoria-entornos de uso intensivo. Ellos, sin embargo, eventualmente el diseño de una variante superando LSTMs.
Donde se RNNs todavía necesita?
Largo tareas de memoria. Muy larga memoria. IndRNNs han mostrado capacidad para recordar para 5000 timesteps, donde LSTM apenas llega a los 1000. Un transformador es cuadrática en el tiempo-de la complejidad, mientras que RNNs son lineales, lo que significa buena suerte procesamiento de una sola iteración de 5000 timesteps. Si eso no es suficiente, la reciente Legendre Unidades de Memoria han demostrado memoria de hasta 512,000,000 timesteps; estoy seguro de que la parte superior del mundo superordenador podría caber la resultante de la 1E18 tensor en la memoria.
Aparte de aprendizaje por refuerzo, señal de aplicaciones de la memoria-exigente - por ejemplo, la síntesis de voz, vídeo síntesis, la incautación de la clasificación. Mientras CNNs han mostrado mucho éxito en estas tareas, muchas de utilizar RNNs inserta en las últimas capas; CNNs aprender las características espaciales, RNNs temporal/recurrrent. Un impresionante 2019 papel de la red se las arregla para clonar una voz de un sólo un muestreo de 5 segundos, y se utiliza CNNs + LSTMs.
Memoria vs Característica de Calidad:
No se garantiza el otro; "calidad" se refiere a la utilidad de la información para una tarea determinada. Para las frases con 50 palabras, por ejemplo, Un modelo puede clasificar superior para el modelo B, pero no dramáticamente con 100 donde B no tendrían ningún problema. Este mismo fenómeno se ilustra en la reciente Biestable Recurrente de la Célula de papel, donde la celda muestra mejor memoria para las secuencias más largas, pero es superado por LSTMs en secuencias más cortas. Una intuición es, LSTMs' cuatro dependientes de redes permite un mayor control sobre la información de enrutamiento, y por lo tanto más rico de extracción de características.
El futuro de LSTMs?
Mi más probables de la apuesta es, algún tipo de mejora - como un Biestable Recurrente de la Célula, tal vez con atención, y recurrente de normalización (por ejemplo, LayerNorm o Recurrente BatchNorm). BRC del diseño se basa en la teoría de control, y por lo tanto son unidades locales de gestión; estas arquitecturas disfrutar de la auto-regularización, y hay mucho espacio para la innovación. En última instancia, RNNs no puede ser "sustituido" por no recurrente de arquitecturas, y por lo tanto realizar superior en algunas de las tareas que demanda explícitamente recurrente características.
Recurrente Transformadores
Si no podemos acabar con la recurrencia, que no podemos simplemente incorporar con transformadores de alguna manera? Sí: Universal De Los Transformadores. No sólo hay recurrencia, pero variable de secuencias de entrada son compatibles, al igual que en RNNs. Los autores de ir tan lejos como para argumentar que la UTs son Turing completo; si eso es cierto yo no lo he verificado, pero incluso si es así, no garantiza la capacidad práctica para aprovechar plenamente esta capacidad.
Bono: ayuda a visualizar RNNs para mejor entender y depurar, se puede ver a sus pesos, degradados y activaciones en acción con Ver RNN, un paquete de la mina (bastante fotos incluidas).