Es Profundo-Q de Aprendizaje inherentemente inestable

Question

Es Profundo-Q de Aprendizaje inherentemente inestable

Preguntado el 12 de Junio, 2018: Cuando se hizo la pregunta
124 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy leyendo Barto y Sutton Aprendizaje por Refuerzo y en la misma (capítulo 11) que se presente el "mortal tríada":

Aproximación de funciones
Bootstrapping
Fuera de la política de formación

Y afirman que un algoritmo que utiliza todos los 3 de estos es inestable y susceptible a divergir en formación. Mi pensamiento es, no profundo Q-aprendizaje de todos los afectados 3 de estos? Sin duda, utiliza la función de aproximación en la forma de una profunda red neuronal, se utiliza el bootstrap, ya que es una forma de aprendizaje de la Diferencia Temporal por lo que sus actualizaciones se basan en el futuro P-valores, y se utiliza fuera de la política de formación, ya que su valor se actualiza utiliza el máximo de tiempo en el futuro-el paso P-valores, mientras que la política de formación (con el comportamiento de la política) podría no ser un algoritmo voraz.

Me parece entonces que en el fondo-Q que el aprendizaje debe ser inherentemente inestable. Es esto cierto, o es a mi entender mal en algún lugar? Si de hecho, es inherentemente inestable, la pregunta sería, ¿es inestable en la práctica? I. e. hay una amplia clase de problemas para los cuales profundo-Q de aprendizaje sería inestable, o es en general, siguen siendo bellas utilizar profundo-Q de aprendizaje para la gran mayoría de los problemas, pero hay algunos pequeños conjunto de problemas para los cuales profundo Q el aprendizaje puede ser inestable?

Preguntado el 12 de Junio, 2018 por Oliver Ken

Answer 1

1 Respuestas

Answer 2

2voto

mclaughlinj Puntos 1099

Dado que trucos tales como la memoria de repetición, el gradiente de saturación, la recompensa de recorte, cuidadosamente seleccionados despliegue de estrategias, y el uso de una red de destino a menudo son necesarios para el logro de un desarrollo razonable, e incluso entonces, la formación puede ser inestable, sí, parece ser cierto en la práctica.

Eso no quiere decir que no funciona en la práctica -- DeepMind del Atari papel mostraron que es de hecho posible, con la ayuda de dichos trucos. Sin embargo, es bastante difícil y requiere de decenas de millones de pasos para entrenar correctamente.

Respondido el 13 de Junio, 2018 por mclaughlinj (1099 Puntos )

Es Profundo-Q de Aprendizaje inherentemente inestable

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Es Profundo-Q de Aprendizaje inherentemente inestable

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: