He observado que los modelos PyTorch funcionan significativamente mejor cuando se utiliza ReLU en lugar de Softplus con Adam como optimizador.
¿Cómo es posible que una función no diferenciable sea más fácil de optimizar que una analítica? ¿Es cierto, entonces, que no hay gradiente optimización excepto en el nombre, y se utiliza algún tipo de combinatoria bajo el capó?