El principal problema con el aprendizaje por TD y DP es que las actualizaciones paso a paso están sesgadas en las condiciones iniciales de los parámetros de aprendizaje. El proceso de bootstrapping típicamente actualiza una función o busca Q(s,a) en un valor sucesor Q(s',a') utilizando las estimaciones actuales en este último. Claramente, al comienzo del aprendizaje, estas estimaciones no contienen información real de ninguna recompensa o transición de estado.
Si el aprendizaje funciona como se espera, entonces el sesgo disminuirá asintóticamente a lo largo de múltiples iteraciones. Sin embargo, el sesgo puede causar problemas significativos, especialmente para métodos fuera de política (por ejemplo, Q Learning) y al usar aproximadores de funciones. Esa combinación es tan propensa a no converger que se le llama el trío mortal en Sutton & Barto.
Los métodos de control de Montecarlo no sufren de este sesgo, ya que cada actualización se realiza utilizando una muestra real de lo que debería ser Q(s,a). Sin embargo, los métodos de Montecarlo pueden sufrir de alta varianza, lo que significa que se requieren más muestras para lograr el mismo grado de aprendizaje en comparación con TD.
En la práctica, el aprendizaje por TD parece aprender de manera más eficiente si se pueden superar los problemas con el trío mortal. Resultados recientes que utilizan repetición de experiencias y copias "congeladas" escalonadas de estimadores proporcionan soluciones alternativas que abordan problemas, por ejemplo, así es como se construyó el aprendiz DQN para los juegos de Atari.
También hay un punto intermedio entre el aprendizaje por TD y Montecarlo. Es posible construir un método generalizado que combine trayectorias de diferentes longitudes, desde TD de un solo paso hasta ejecuciones de episodios completos en Montecarlo, y combinarlos. La variante más común de esto es el aprendizaje TD($\lambda$), donde $\lambda$ es un parámetro de $0$ (efectivamente aprendizaje por TD de un solo paso) a $1$ (efectivamente aprendizaje Montecarlo, pero con la característica de poder usarse en problemas continuos). Típicamente, un valor entre $0$ y $1$ hace que el agente de aprendizaje sea más eficiente, aunque al igual que muchos hiperparámetros, el mejor valor a utilizar depende del problema.
Si estás utilizando un método basado en el valor (en lugar de uno basado en la política), entonces en la práctica se utiliza más el aprendizaje por TD, o un método de combinación TD/MC como TD(λ) puede ser incluso mejor.
En términos de "ventaja práctica" para Montecarlo, el aprendizaje de Montecarlo es conceptualmente simple, robusto y fácil de implementar, aunque a menudo es más lento que TD. Generalmente no lo usaría para un controlador de aprendizaje (a menos que esté apurado para implementar algo para un entorno simple), pero consideraría seriamente su uso para la evaluación de políticas para comparar múltiples agentes, por ejemplo, debido a que es una medida imparcial, lo cual es importante para las pruebas.