Estoy leyendo Barto y Sutton Aprendizaje por Refuerzo y en la misma (capítulo 11) que se presente el "mortal tríada":
- Aproximación de funciones
- Bootstrapping
- Fuera de la política de formación
Y afirman que un algoritmo que utiliza todos los 3 de estos es inestable y susceptible a divergir en formación. Mi pensamiento es, no profundo Q-aprendizaje de todos los afectados 3 de estos? Sin duda, utiliza la función de aproximación en la forma de una profunda red neuronal, se utiliza el bootstrap, ya que es una forma de aprendizaje de la Diferencia Temporal por lo que sus actualizaciones se basan en el futuro P-valores, y se utiliza fuera de la política de formación, ya que su valor se actualiza utiliza el máximo de tiempo en el futuro-el paso P-valores, mientras que la política de formación (con el comportamiento de la política) podría no ser un algoritmo voraz.
Me parece entonces que en el fondo-Q que el aprendizaje debe ser inherentemente inestable. Es esto cierto, o es a mi entender mal en algún lugar? Si de hecho, es inherentemente inestable, la pregunta sería, ¿es inestable en la práctica? I. e. hay una amplia clase de problemas para los cuales profundo-Q de aprendizaje sería inestable, o es en general, siguen siendo bellas utilizar profundo-Q de aprendizaje para la gran mayoría de los problemas, pero hay algunos pequeños conjunto de problemas para los cuales profundo Q el aprendizaje puede ser inestable?