1 votos

Intuición detrás de la predicción de la probabilidad en el aprendizaje por refuerzo

Estoy aprendiendo a implementar el aprendizaje por refuerzo para resolver un problema de clasificación. Entiendo que no es un enfoque común y que podría no devolver un mejor rendimiento en comparación con otros clasificadores supervisados. En Sklearn, cada modelo tiene su propio cálculo de predict_proba() para predecir la probabilidad de cada etiqueta.

¿Alguien tiene alguna idea sobre cómo predecir la probabilidad de cada etiqueta utilizando el aprendizaje por refuerzo, específicamente usando DQN (deep Q-network)?

2voto

Dipstick Puntos 4869

Ninguna red neuronal produce clasificaciones binarias. Las redes neuronales se definen en términos de funciones de números en coma flotante y la capa final de la red neuronal también devuelve salidas en coma flotante. Las salidas pueden utilizarse para realizar clasificaciones duras mediante su umbralización. Dichas salidas no están limitadas, o se pasan por algún tipo de función de activación (ReLU, tanh, sigmoide, softmax, etc). Si se necesitan probabilidades de eventos binarios se utiliza sigmoide, si se tienen datos multiclase, se utiliza softmax, por lo que los valores devueltos pueden ser interpretados como probabilidades.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X