63 votos

Por qué la función sigmoidea en lugar de cualquier otra cosa?

¿Por qué es el estándar de-facto función sigmoidea, $\frac{1}{1+e^{-x}}$, tan populares en (no profunda) de los nervios de las redes y de regresión logística?

¿Por qué no usar muchos de los otros que se pueden derivar funciones, con el más rápido tiempo de cálculo o de decaimiento más lenta (por lo fuga de gradiente se produce menos). Estos son algunos ejemplos en Wikipedia acerca de las funciones sigmoides. Uno de mis favoritos con decaimiento lento y rápido cálculo es $\frac{x}{1+|x|}$.

EDITAR

La cuestión es distinta a la lista Completa de las funciones de activación en redes neuronales con los pros y los contras como sólo estoy interesado en el 'por qué', y sólo para el sigmoide.

31voto

Kuro Puntos 81

Cito a mí mismo de esta respuesta a una pregunta diferente:

En la sección 4.2 de Reconocimiento de patrones y Aprendizaje de Máquina (Springer, 2006), el Obispo muestra que el logit surge de manera natural como la forma de la parte posterior de la distribución de probabilidad en un Bayesiano de tratamiento de dos clases de la clasificación. Luego pasa a mostrar que la misma tiene para los discretamente distribuidas características, así como un subconjunto de la familia de distribuciones exponenciales. Para multi-clase de la clasificación de la logit generaliza a la normalizado exponencial o softmax función.

Esto explica por qué esta sigmoide es utilizado en la regresión logística.

Con respecto a las redes neuronales, este blog se explica cómo diferentes de las no linealidades, incluyendo el logit / softmax y el probit se utiliza en las redes neuronales se puede dar una interpretación estadística y por lo tanto la motivación. La idea subyacente es que una de múltiples capas de la red neuronal puede ser considerada como una jerarquía de modelos lineales generalizados; de acuerdo a esto, la activación de las funciones son funciones de enlace, que a su vez corresponden a los diferentes supuestos de distribución.

22voto

JoanComasFdz Puntos 131

Una de las razones de esta función podría parecer más "natural" que otros, es que pasa a ser la inversa de la canónica parámetro de la distribución de Bernoulli: \begin{align} f(y) &= p^y (1 - p)^{1 - y} \\ &= (1 - p) \exp \left \{ y \log \left ( \frac{p}{1 - p} \right ) \right \} . \end{align} (La función de $p$ dentro del exponente se llama canónica parámetro.)

Tal vez más convincente justificación proviene de la teoría de la información, donde la función sigmoide puede ser derivada como un modelo de máxima entropía. A grandes rasgos, la función sigmoidea supone un mínimo de estructura y refleja nuestro estado general de la ignorancia sobre el modelo subyacente.

-4voto

Crab Bucket Puntos 4310

Debido a que el logit es acotada entre 0 y 1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X