Estoy aprendiendo a implementar el aprendizaje por refuerzo para resolver un problema de clasificación. Entiendo que no es un enfoque común y que podría no devolver un mejor rendimiento en comparación con otros clasificadores supervisados. En Sklearn, cada modelo tiene su propio cálculo de predict_proba()
para predecir la probabilidad de cada etiqueta.
¿Alguien tiene alguna idea sobre cómo predecir la probabilidad de cada etiqueta utilizando el aprendizaje por refuerzo, específicamente usando DQN (deep Q-network)?