¿Por qué es el estándar de-facto función sigmoidea, $\frac{1}{1+e^{-x}}$, tan populares en (no profunda) de los nervios de las redes y de regresión logística?
¿Por qué no usar muchos de los otros que se pueden derivar funciones, con el más rápido tiempo de cálculo o de decaimiento más lenta (por lo fuga de gradiente se produce menos). Estos son algunos ejemplos en Wikipedia acerca de las funciones sigmoides. Uno de mis favoritos con decaimiento lento y rápido cálculo es $\frac{x}{1+|x|}$.
EDITAR
La cuestión es distinta a la lista Completa de las funciones de activación en redes neuronales con los pros y los contras como sólo estoy interesado en el 'por qué', y sólo para el sigmoide.