47 votos

Es LSTM (Tiempo de Memoria a Corto Plazo) muertos?

Desde mi propia experiencia, LSTM tiene un largo tiempo de entrenamiento, y no mejora significativamente el rendimiento en muchas tareas del mundo real.

Para hacer la pregunta más específica, quiero preguntar cuando LSTM va a funcionar mejor que otros profundo NN (puede ser con ejemplos del mundo real)? Sé LSTM captura la relación secuencial de datos, pero, ¿es realmente necesario?

La mayoría de las demostraciones en relación a este tema no tiene sentido. Ellos sólo se centran en juguete de los datos, por ejemplo, IMDB revisión, donde regresión logística simple se obtiene muy buenos resultados. Yo no veo ningún valor de uso de la LSTM que tiene un enorme coste computacional, pero mejoras marginales (si las hay).

Incluso con estos juguetes ejemplos, no he podido encontrar ningún buen casos de uso que LSTM puede resolver muy bien, pero otros modelos no.

40voto

Ben Carlson Puntos 1

Tal vez. Pero RNNs no.

Los transformadores de aprender "pseudo-temporal" de las relaciones; les falta la verdadera recurrente gradiente que RNNs tienen, y por lo tanto extraer fundamentalmente diferentes características. Este papel, por ejemplo, muestra que el estándar de los transformadores son difíciles de optimizar en el aprendizaje por refuerzo, sobre todo en la memoria-entornos de uso intensivo. Ellos, sin embargo, eventualmente el diseño de una variante superando LSTMs.

Donde se RNNs todavía necesita?

Largo tareas de memoria. Muy larga memoria. IndRNNs han mostrado capacidad para recordar para 5000 timesteps, donde LSTM apenas llega a los 1000. Un transformador es cuadrática en el tiempo-de la complejidad, mientras que RNNs son lineales, lo que significa buena suerte procesamiento de una sola iteración de 5000 timesteps. Si eso no es suficiente, la reciente Legendre Unidades de Memoria han demostrado memoria de hasta 512,000,000 timesteps; estoy seguro de que la parte superior del mundo superordenador podría caber la resultante de la 1E18 tensor en la memoria.

Aparte de aprendizaje por refuerzo, señal de aplicaciones de la memoria-exigente - por ejemplo, la síntesis de voz, vídeo síntesis, la incautación de la clasificación. Mientras CNNs han mostrado mucho éxito en estas tareas, muchas de utilizar RNNs inserta en las últimas capas; CNNs aprender las características espaciales, RNNs temporal/recurrrent. Un impresionante 2019 papel de la red se las arregla para clonar una voz de un sólo un muestreo de 5 segundos, y se utiliza CNNs + LSTMs.

Memoria vs Característica de Calidad:

No se garantiza el otro; "calidad" se refiere a la utilidad de la información para una tarea determinada. Para las frases con 50 palabras, por ejemplo, Un modelo puede clasificar superior para el modelo B, pero no dramáticamente con 100 donde B no tendrían ningún problema. Este mismo fenómeno se ilustra en la reciente Biestable Recurrente de la Célula de papel, donde la celda muestra mejor memoria para las secuencias más largas, pero es superado por LSTMs en secuencias más cortas. Una intuición es, LSTMs' cuatro dependientes de redes permite un mayor control sobre la información de enrutamiento, y por lo tanto más rico de extracción de características.

El futuro de LSTMs?

Mi más probables de la apuesta es, algún tipo de mejora - como un Biestable Recurrente de la Célula, tal vez con atención, y recurrente de normalización (por ejemplo, LayerNorm o Recurrente BatchNorm). BRC del diseño se basa en la teoría de control, y por lo tanto son unidades locales de gestión; estas arquitecturas disfrutar de la auto-regularización, y hay mucho espacio para la innovación. En última instancia, RNNs no puede ser "sustituido" por no recurrente de arquitecturas, y por lo tanto realizar superior en algunas de las tareas que demanda explícitamente recurrente características.

Recurrente Transformadores

Si no podemos acabar con la recurrencia, que no podemos simplemente incorporar con transformadores de alguna manera? : Universal De Los Transformadores. No sólo hay recurrencia, pero variable de secuencias de entrada son compatibles, al igual que en RNNs. Los autores de ir tan lejos como para argumentar que la UTs son Turing completo; si eso es cierto yo no lo he verificado, pero incluso si es así, no garantiza la capacidad práctica para aprovechar plenamente esta capacidad.

Bono: ayuda a visualizar RNNs para mejor entender y depurar, se puede ver a sus pesos, degradados y activaciones en acción con Ver RNN, un paquete de la mina (bastante fotos incluidas).

30voto

Dipstick Puntos 4869

Es gracioso que te pido ahora, ya que hoy me encontré con un artículo de Wang, Khabsa, y Ma (2020) Para Pretrain o No Pretrain que muestran que si usted tiene lo suficientemente grande como conjunto de entrenamiento, la diferencia en el rendimiento entre enormes, "SOTA" modelo (RoBERTa), y LSTMs es pequeño para la PNL tarea. Hubo otro artículo reciente Merity (2019) Solo se Dirigió la Atención RNN mostrando resultados similares, el resumen es vale la pena citar en su totalidad

Los principales enfoques en el lenguaje de modelado están todos obsesionados con TV muestra de mi juventud - es decir, de los Transformadores y de Sesame Street. Los transformadores de esto, los Transformadores que, y aquí una hoguera pena de GPU-TPU-neuromorphic escala de oblea de silicio. Optamos por el camino del perezoso viejo y técnicas probadas con una fantasía de crypto inspirado acrónimo: el Solo Dirigió la Atención RNN (SHA-RNN). El autor del solitario gol es mostrar que el campo entero podría haber evolucionado en una dirección diferente si nosotros en cambio había estado obsesionado con algo un poco diferente acrónimo y ligeramente diferente resultado. Tomamos previamente un fuerte modelo de lenguaje basado sólo en la aburrida LSTMs y dentro de un tiro de piedra de un tiro de piedra de estado-of-the-art byte nivel de idioma de los resultados del modelo en enwik8. Este trabajo ha sido sometido a ningún intensivo hyperparameter optimización y vivía enteramente en un producto de escritorio de la máquina que hecho el autor del pequeño apartamento demasiado caliente en el medio de un San francisco de verano. Los resultados finales se pueden lograr en más o en menos de 24 horas en una sola GPU como el autor es impaciente. El atención mecanismo es también fácilmente extendido a grandes contextos con cálculos mínimos. Tomar que de Sesame Street.

Yo no creo que haya mucho más que añadir.

Aquí está otro ejemplo de trabajo muy reciente por Abnar, Dehghani, y Zuidema (2020) la Transferencia Inductiva de los Sesgos que a través del Conocimiento de la Destilación

Varios estudios, sin embargo, han demostrado que LSTMs puede realizar mejor de los Transformadores en las tareas que requieren de la sensibilidad a la (lingüística) la estructura, especialmente cuando los datos es limitada [37, 6]. Esto se debe principalmente a debido a la recurrente inductivo sesgos de LSTMs que les ayuda mejor modelo de la estructura jerárquica de las entradas.

por tanto, los autores muestran cómo la destilación de la información de LSTMs pueden impactar positivamente el modelo de Transformador. Este otro, de los muchos ejemplos que LSTMs, y RNNs en general, se utilizan y realizan buenas para una clase particular de problemas. Claro, ellos tienen sus limitaciones, pero para el lenguaje son modelo estándar, que se enseña en cada curso de PNL (como la de Stanford CS224n), y se menciona en todas las modernas manual sobre este tema. Los ejemplos anteriores se centran en el lenguaje de los datos, debido a que en esta zona, este modelo es muy popular, pero, por supuesto, es aplicado con éxito a otros tipos de datos de series de tiempo así, como se ha mencionado en otras respuestas.

15voto

Agul Puntos 138

Nuestro grupo recientemente construido un LSTM modelo en una aplicación real. En un principio habíamos utilizado otros métodos, pero luego decidimos incluir características que fueron las medidas tomadas a lo largo del tiempo, pero de longitud variable - por lo que para una persona, tendríamos 15 mediciones (de la misma parámetro) tomadas durante un período de 3 meses, por la otra, tendríamos 20 mediciones durante un período de 2 meses, y así sucesivamente. Otras características estaban presentes una vez por persona, por ejemplo, de género.

En esta situación, hora estándar de la serie de enfoques resultó ser inutilizable, ya que ellos esperaban tener igual número de mediciones por persona, tomadas a intervalos iguales. LSTM nos permitió construir un modelo de predicción de si un determinado evento se produce por una persona, usando la variable de medición de longitud combinada con el-una-vez-por-persona mediciones.

También comparamos nuestro modelo a un simple modelo de regresión utilizando sólo un valor para cada variable en el tiempo de parámetro (se me olvida lo que fue, probablemente, el valor promedio a lo largo del tiempo) y a un modelo de regresión con tres mediciones por tiempo variable en función de cada persona y tratarla como las mediciones de las variables independientes. El LSTM modelo tenía mucho mejor precisión que ambos de estos modelos, especialmente para la clase de personas para las cuales se ha producido el evento.

Sé que esto es sólo un contraejemplo, y LSTM no es el único algoritmo para manejar ese tipo de situaciones, pero la forma en que su pregunta está indicada presta a contraejemplos, y estadísticas/ML sería un área empobrecida si no teníamos herramientas diferentes para elegir.

1voto

Marc-Andre R. Puntos 789

LSTM es un método estadístico. Es que no vivo por lo que no puede estar muerto. Puede ser útil, aunque. Cualquier método estadístico es otra herramienta en una caja. Si uno no hace el trabajo es bueno tener una alternativa.

LSTM es bueno para el reconocimiento del lenguaje tareas donde el contexto es importante. También es bueno para el pronóstico de series de tiempo. El M4 de la competencia fue ganada por LSTM.

Si no fue de utilidad no sería un importante cuerpo de investigación dedicado a la misma. Sin embargo, hasta donde yo sé no hay ninguna prueba de que LSTM es inferior a la de cualquier otro método en algún sentido significativo, es decir, la clase de problemas que LSTM es capaz de resolver es menor que la regresión logística, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X