La razón de utilizar $\epsilon$ -La ventaja del aprendizaje por refuerzo durante la fase de prueba es que, a diferencia del aprendizaje automático supervisado (por ejemplo, la clasificación de imágenes), en el aprendizaje por refuerzo no hay ningún conjunto de datos no visto y retenido disponible para la fase de prueba. Esto significa que el algoritmo se prueba en la misma configuración en la que se ha entrenado. En el artículo se menciona (sección Métodos, Procedimiento de evaluación):
Los agentes entrenados se evaluaron jugando a cada juego 30 veces durante un máximo de 5 minutos cada vez con diferentes condiciones aleatorias iniciales ("no- op'; véase la tabla 1 de datos ampliados) y un $\epsilon$ -política ambiciosa con $\epsilon = 0.05$ . Este procedimiento se adopta para minimizar la posibilidad de sobreajuste durante la evaluación.
Especialmente porque la entrada preprocesada contiene un historial de estados encontrados previamente, la preocupación es que, en lugar de generalizar al juego subyacente, el agente simplemente memorice trayectorias óptimas para ese juego específico y las repita durante la fase de prueba; esto es lo que se entiende por "la posibilidad de sobreajuste durante la evaluación" . Para entornos deterministas esto es obvio, pero también para transiciones de estado estocásticas puede producirse memorización (es decir, sobreajuste). El uso de la aleatorización durante la fase de prueba, en forma de arranques sin salida de duración aleatoria, así como una parte de acciones aleatorias durante el juego, obliga al algoritmo a enfrentarse a estados imprevistos y, por tanto, requiere cierto grado de generalización.
Por otra parte $\epsilon$ -Greedy es no se utiliza para mejorar potencialmente el rendimiento del algoritmo ayudándole a desatascarse en regiones mal entrenadas del espacio de observación. Aunque una política determinada sólo puede considerarse siempre una aproximación de la política óptima (al menos para este tipo de tareas), se han entrenado mucho más allá del punto en el que el algoritmo realizaría acciones sin sentido. Utilizando $\epsilon = 0$ durante las pruebas mejoraría potencialmente el rendimiento, pero de lo que se trata aquí es de demostrar la capacidad de generalización. Además, en la mayoría de los juegos de Atari el estado también evoluciona en un no-op, por lo que el agente naturalmente se "desatascaría" si eso ocurriera alguna vez. Teniendo en cuenta el ejemplo del laberinto mencionado anteriormente, en el que el entorno no evoluciona en caso de no-op, el agente aprendería rápidamente que chocar contra una pared no es una buena idea si la recompensa tiene la forma adecuada (-1 por cada paso, por ejemplo); especialmente cuando se utilizan valores iniciales optimistas, la exploración necesaria se produce de forma natural. En caso de que el algoritmo se atasque en algunas situaciones, significa que hay que aumentar el tiempo de entrenamiento (es decir, ejecutar más episodios), en lugar de introducir algún tipo de aleatoriedad auxiliar con respecto a las acciones.
Sin embargo, si se trabaja en un entorno en el que la dinámica del sistema evoluciona (es decir, las transiciones de estado subyacentes o las recompensas cambian con el tiempo), habrá que mantener cierto grado de exploración y actualizar la política en consecuencia para seguir el ritmo de los cambios.