55 votos

¿Qué significa el término no linealidad saturante?

Estaba leyendo el periódico Clasificación de ImageNet con redes neuronales convolucionales profundas y en la sección 3, donde explican la arquitectura de su Red Neural Convolucional, explican cómo prefieren utilizarla:

la no linealidad no saturante $f(x) = max(0, x). $

porque era más rápido de entrenar. En ese documento parecen referirse a las no linealidades saturantes como las funciones más tradicionales utilizadas en las CNN, la sigmoide y la tangente hiperbólica (es decir $f(x) = tanh(x)$ y $f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}$ como saturante).

¿Por qué se refieren a estas funciones como "saturantes" o "no saturantes"? ¿En qué sentido estas funciones son "saturantes" o "no saturantes"? ¿Qué significan estos términos en el contexto de las redes neuronales convolucionales? ¿Se utilizan en otros ámbitos del aprendizaje automático (y de la estadística)?

54voto

Franck Dernoncourt Puntos 2128

Intuición

Una función de activación de saturación exprime la entrada.


Definiciones

  • $f$ es no saturante si $ (|\lim_{z\to-\infty} f(z)| = +\infty) \vee (|\lim_{z\to+\infty} f(z)| = +\infty) $
  • $f$ está saturado si $f$ no es no saturante.

Estas definiciones no son específicas de las redes neuronales convolucionales.


Ejemplos

La función de activación de la unidad lineal rectificada (ReLU), que se define como $f(x)=max(0,x)$ es no saturante porque $\lim_{z\to+\infty} f(z) = +\infty$ :

enter image description here

La función de activación sigmoidea, que se define como $f(x) = \frac{1}{1 + e^{-x}}$ es saturante, porque aplasta los números reales para que oscilen entre $[0,1]$ :

enter image description here

La función de activación tanh (tangente hiperbólica) es saturante ya que aplasta los números reales para que oscilen entre $[-1,1]$ :

enter image description here

(las cifras son de CS231n (Licencia MIT)

2voto

user7285239 Puntos 1

En el contexto de las redes neuronales, el fenómeno de la saturación se refiere al estado en el que una neurona emite predominantemente valores cercanos a los extremos asintóticos de la función de activación acotada.

Por lo tanto, la saturación se refiere al comportamiento de una neurona en una red neuronal después de un período determinado de entrenamiento/para un rango determinado de entrada, y sólo las neuronas con límites acotados son susceptibles de saturación (y por extensión, tales funciones se denominan a veces "saturadas" incluso si en un caso particular no se han "saturado").

Las funciones de saturación incluyen:

Tipo

Ejemplos

Limitado a medida que x se acerca al infinito y menos al infinito

Sigmoide, tanh

Limitado sólo en una dirección

$\max(x,c)$

Las funciones no saturadas incluyen:

Tipo

Ejemplos

Funciones no limitadas

identidad, $\sinh$ , $abs$

Funciones periódicas

sin, cos

Así que en tu ejemplo, una "no linealidad no saturante" significa una "función no lineal sin límite cuando x se acerca al infinito".

1voto

Emily Blow Puntos 101

Las funciones de activación más comunes son LOG y TanH. Estas funciones tienen un rango compacto, lo que significa que comprimen la respuesta neuronal en un subconjunto acotado de los números reales. La LOG comprime las entradas en salidas entre 0 y 1, la TAN H entre -1 y 1. Estas funciones muestran un comportamiento limitante en los límites.

En la frontera el gradiente de la salida con respecto a la entrada ∂yj/∂xj es muy pequeño. Así que el gradiente es pequeño, por lo tanto, los pasos pequeños a la convergencia, por lo tanto, más tiempo para converger.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X