Si bien la elección de las funciones de activación para la capa oculta es bastante clara (principalmente sigmoidea o tanh), me pregunto cómo decidir la función de activación para la capa de salida. Las opciones comunes son funciones lineales, funciones sigmoides y funciones softmax. Sin embargo, ¿cuándo debería usar cuál?
Respuesta
¿Demasiados anuncios?- Regresión: lineal (porque los valores son ilimitados)
- Clasificación: softmax (el sigmoide simple también funciona, pero el softmax funciona mejor)
Use sigmoide simple solo si su salida admite múltiples respuestas "verdaderas", por ejemplo, una red que verifica la presencia de varios objetos en una imagen. En otras palabras, la salida no es una distribución de probabilidad (no necesita sumar 1).