1 votos

ReLU supera a Softplus

He observado que los modelos PyTorch funcionan significativamente mejor cuando se utiliza ReLU en lugar de Softplus con Adam como optimizador.

¿Cómo es posible que una función no diferenciable sea más fácil de optimizar que una analítica? ¿Es cierto, entonces, que no hay gradiente optimización excepto en el nombre, y se utiliza algún tipo de combinatoria bajo el capó?

1voto

Dipstick Puntos 4869

ReLU en general se conoce para superar a muchas funciones de activación más suaves. Es fácil de optimizar, porque es semilineal. La ventaja cuando se utiliza suele ser la velocidad, por lo que puede darse el caso de que si se esperara más iteraciones, se utilizaran diferentes tasas de aprendizaje, tamaños de lote u otros hiperparámetros, etc., se obtendrían resultados similares.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X