10 votos

Es Profundo-Q de Aprendizaje inherentemente inestable

Estoy leyendo Barto y Sutton Aprendizaje por Refuerzo y en la misma (capítulo 11) que se presente el "mortal tríada":

  1. Aproximación de funciones
  2. Bootstrapping
  3. Fuera de la política de formación

Y afirman que un algoritmo que utiliza todos los 3 de estos es inestable y susceptible a divergir en formación. Mi pensamiento es, no profundo Q-aprendizaje de todos los afectados 3 de estos? Sin duda, utiliza la función de aproximación en la forma de una profunda red neuronal, se utiliza el bootstrap, ya que es una forma de aprendizaje de la Diferencia Temporal por lo que sus actualizaciones se basan en el futuro P-valores, y se utiliza fuera de la política de formación, ya que su valor se actualiza utiliza el máximo de tiempo en el futuro-el paso P-valores, mientras que la política de formación (con el comportamiento de la política) podría no ser un algoritmo voraz.

Me parece entonces que en el fondo-Q que el aprendizaje debe ser inherentemente inestable. Es esto cierto, o es a mi entender mal en algún lugar? Si de hecho, es inherentemente inestable, la pregunta sería, ¿es inestable en la práctica? I. e. hay una amplia clase de problemas para los cuales profundo-Q de aprendizaje sería inestable, o es en general, siguen siendo bellas utilizar profundo-Q de aprendizaje para la gran mayoría de los problemas, pero hay algunos pequeños conjunto de problemas para los cuales profundo Q el aprendizaje puede ser inestable?

2voto

mclaughlinj Puntos 1099

Dado que trucos tales como la memoria de repetición, el gradiente de saturación, la recompensa de recorte, cuidadosamente seleccionados despliegue de estrategias, y el uso de una red de destino a menudo son necesarios para el logro de un desarrollo razonable, e incluso entonces, la formación puede ser inestable, sí, parece ser cierto en la práctica.

Eso no quiere decir que no funciona en la práctica -- DeepMind del Atari papel mostraron que es de hecho posible, con la ayuda de dichos trucos. Sin embargo, es bastante difícil y requiere de decenas de millones de pasos para entrenar correctamente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X