En DeepMind del 2015 de papel en lo profundo de aprendizaje por refuerzo, afirma que "los intentos Anteriores para combinar RL con redes neuronales había fracasado en gran parte debido a la inestabilidad del aprendizaje". El papel, a continuación, se enumeran algunas de las causas de esto, basado en las correlaciones entre las observaciones.
Por favor, ¿podría alguien explicar qué significa esto? Es una forma de sobreajuste, donde la red neuronal que aprende una estructura que está presente en la formación, pero no puede estar presente en las pruebas? O significa algo más?
Gracias!
El papel se puede encontrar en: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Y la sección que estoy tratando de entender es:
El aprendizaje por refuerzo es conocido por ser inestable o incluso a divergir cuando una función no lineal approximator como una red neuronal se utiliza para representar la acción-valor (también conocido como P) de la función. Esta inestabilidad tiene varias causas: las correlaciones presentes en la secuencia de observaciones, el hecho de que pequeñas actualizaciones para Q puede cambiar de manera significativa la política y por lo tanto cambiar la distribución de los datos, y de las correlaciones entre la acción, los valores y los valores de destino.
Nos dirigimos a estas inestabilidades con una nueva variante de la Q-aprendizaje, que utiliza dos ideas clave. En primer lugar, se utilizó un biológicamente inspirado mecanismo denominado experiencia de reproducción que aleatoriamente sobre los datos, eliminando de este modo las correlaciones en la observación de la secuencia y suavizado por los cambios en la distribución de los datos. Segundo, se utiliza un proceso iterativo de actualización que se ajusta a la acción-valor (P) hacia los valores objetivo que sólo se actualiza periódicamente, reduciendo así las correlaciones con el objetivo.