16 votos

¿Por qué es profundo aprendizaje por refuerzo inestable?

En DeepMind del 2015 de papel en lo profundo de aprendizaje por refuerzo, afirma que "los intentos Anteriores para combinar RL con redes neuronales había fracasado en gran parte debido a la inestabilidad del aprendizaje". El papel, a continuación, se enumeran algunas de las causas de esto, basado en las correlaciones entre las observaciones.

Por favor, ¿podría alguien explicar qué significa esto? Es una forma de sobreajuste, donde la red neuronal que aprende una estructura que está presente en la formación, pero no puede estar presente en las pruebas? O significa algo más?

Gracias!


El papel se puede encontrar en: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

Y la sección que estoy tratando de entender es:

El aprendizaje por refuerzo es conocido por ser inestable o incluso a divergir cuando una función no lineal approximator como una red neuronal se utiliza para representar la acción-valor (también conocido como P) de la función. Esta inestabilidad tiene varias causas: las correlaciones presentes en la secuencia de observaciones, el hecho de que pequeñas actualizaciones para Q puede cambiar de manera significativa la política y por lo tanto cambiar la distribución de los datos, y de las correlaciones entre la acción, los valores y los valores de destino.

Nos dirigimos a estas inestabilidades con una nueva variante de la Q-aprendizaje, que utiliza dos ideas clave. En primer lugar, se utilizó un biológicamente inspirado mecanismo denominado experiencia de reproducción que aleatoriamente sobre los datos, eliminando de este modo las correlaciones en la observación de la secuencia y suavizado por los cambios en la distribución de los datos. Segundo, se utiliza un proceso iterativo de actualización que se ajusta a la acción-valor (P) hacia los valores objetivo que sólo se actualiza periódicamente, reduciendo así las correlaciones con el objetivo.

13voto

terdon Puntos 29629

El principal problema es que, como en muchos otros campos, DNN puede ser difícil de entrenar. Aquí, uno de los problemas es la correlación de los datos de entrada: si usted piensa acerca de un videojuego (que en realidad las usan para poner a prueba sus algoritmos), se puede imaginar que las capturas de pantalla tomado un paso tras otro son altamente correlacionados: el juego evoluciona "continuamente". Que, para NNs, puede ser un problema: hacer muchas iteraciones de gradiente de descenso similar y se correlacionó entradas pueden conducir a overfit ellos y/o a caer en un mínimo local. Es por eso que el uso de la experiencia de reproducción: se almacenan una serie de "instantáneas" del juego, a continuación, shuffle, y recoger algunos pasos más adelante para hacer el entrenamiento. De esta manera, los datos no se correlaciona más. A continuación, se observa cómo durante la formación de los valores de Q (predicho por la NN) puede cambiar la política, por lo que el agente prefiere sólo un conjunto de acciones y provocando el almacén de datos que se correlaciona por las mismas razones que antes: esta es la razón por la que el retraso de la formación y uodate Q periódicamente, para asegurarse de que el agente puede explorar el juego, y el tren en revueltos y la no correlación de los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X