Creo que utilizar agentes no totalmente entrenados para dificultades inferiores a la de gran maestro podría ser difícil, porque el diseñador del proceso de entrenamiento tiene que centrarse tanto en crear el "mejor" agente al final COMO en establecer los límites correctos entre ambos. Dada la naturaleza a menudo estocástica de equilibrar la exploración y la explotación durante el aprendizaje (por ejemplo, utilizando $\epsilon$ -políticas ávidas), los agentes intermedios podrían no ser estables.
En cambio, creo que sería más fácil aprender primero el estado( $s$ )-acción( $a$ )-valor-función $Q(s,a)$ para el mejor agente y luego tratar de ajustar los parámetros de tal manera, que se seleccionen acciones subóptimas (por ejemplo, seleccionando una acción con menor $Q(s,a)$ o reduciendo el lookahead en la búsqueda heurística, lo que resulta en la siguiente mejor acción sin tener en cuenta los efectos a largo plazo).
La forma de establecer el umbral de los distintos niveles de dificultad, es decir, lo que es "fácil", etc., es un tema aparte (Game Design). El mejor agente define el nivel de gran maestro, pero ¿cuántas partidas debería poder ganar de media un principiante para definir el nivel de dificultad más bajo?
Descargo de responsabilidad Sólo he leído el resumen de TD-Gammon en el libro Aprendizaje por refuerzo: Una introducción de Sutton y Barto, no el documento completo.