15 votos

Si cada neurona de una red neuronal es básicamente una regresión logística de la función, ¿por qué multi capa es mejor?

Voy a través de la Cousera del DeepAI curso (Week3 video 1 "Redes Neuronales Panorama general") y Andrew Ng es la explicación de cómo cada capa en una red neuronal es sólo otra de regresión logística, pero él no explica cómo se hace la cosa más precisos.

Así, en una de las 2 de la capa de red, ¿cómo se realiza el cálculo de logística varias veces hacer que sea más precisa?

11voto

throwaway Puntos 18

Cuando se utiliza logística funciones de activación, es cierto que la función de relación las entradas de cada unidad para su salida es el mismo que para la regresión logística. Pero, este no es realmente el mismo ya que cada unidad realizar la regresión logística. La diferencia es que, en la regresión logística, los pesos y bias se eligen de modo que el resultado coincida mejor con el objetivo de valores (utilizando el registro/de la cruz-la pérdida de entropía). En contraste, las unidades ocultas en una red neuronal enviar sus salidas de aguas abajo de unidades. No hay ningún destino de salida para que coincida individuales unidades ocultos. Más bien, los pesos y sesgos son las elegidas para minimizar la función objetivo que depende de la salida final de la red.

En lugar de realizar la regresión logística, podría tener más sentido pensar en cada oculto unidad de informática de una coordenada en algún espacio de características. Desde esta perspectiva, el propósito de una capa oculta es transformar su entrada--el vector de entrada se asigna a un vector de la capa oculta de activaciones. Usted puede pensar en esto como la asignación de la entrada en un espacio de características con una dimensión correspondiente a cada oculto de la unidad.

La capa de salida, a menudo puede ser considerado como un estándar algoritmo de aprendizaje que opera en este espacio de características. Por ejemplo, en una tarea de clasificación, mediante una logística de salida de la unidad con el cruce de la pérdida de entropía es equivalente a realizar la regresión logística en función del espacio (o la regresión logística multinomial si el uso de softmax salidas). En una regresión de la tarea, el uso de una salida lineal con error cuadrado es equivalente a la realización de los mínimos cuadrados de la regresión lineal en el espacio de características.

El entrenamiento de la red equivale a aprender la función de espacio de mapeo y clasificación/función de regresión (en función del espacio) que, juntos, dar el mejor rendimiento. Suponiendo que no lineales de unidades ocultas, aumentando el ancho de la capa oculta o apilar múltiples capas ocultas permite más complejo espacio de características de las asignaciones, lo que permite a más compleja de las funciones de ajuste.

8voto

user121270 Puntos 1059

Una forma de ver el poder de la no linealidad es para nota universal teorema de aproximación.

Aunque no es muy significativo en la práctica (se trata de las capacidades de redes de una sola capa), le dice que si uso (arbitraria) de largo) de las sumas de sigmoids en principio se pueden aproximar cualquier función continua a cualquier nivel deseado. Si usted sabe de Fourier de la teoría o recordar aproximación de Weierstrass teorema no debería ser sorprendente.

5voto

David Puntos 41

Cuando hay capas ocultas que existen en la red neuronal, se suman los no-lineal de funciones. Por favor revise mi respuesta aquí para obtener algún sentido.

lo que hace que las redes neuronales de una relación no lineal el modelo de clasificación?

Específicamente, un anidada función sigmoidea será más "poderosa" de una transformación lineal de las características originales y una función sigmoidea (regresión logística.)


Aquí está un ejemplo numérico para la dirección de OP comentarios.

Supongamos que tenemos los datos de marco de $X$ $10 \times 3$ matriz (10 puntos de datos, 3 funciones.). Si queremos tener $7$ ocultos une, entonces la matriz de pesos $W$ $3 \times 7$ matriz. La salida de la capa oculta (resultado de la multiplicación de la matriz $X \times W$) $10 \times 7$ matriz, que para cada punto de datos, hay $7$ gastado características.

3voto

P. Appell Puntos 207

En la regresión logística estándar tenemos 1 salida en la capa final. Sin embargo, con una sola capa oculta de la red neuronal, podemos tener múltiples valores intermedios de cada uno de los cuales puede ser considerado como una salida de un diferente modelo de regresión logística es decir, no sólo estamos realizando la misma regresión logística una y otra vez. Por tanto, no es un gran salto para pensar que es posible que la combinación de estos tiene una mayor capacidad expresiva de la norma modelo de regresión logística (y también se ha demostrado en la práctica y teoría).

Usted también se menciona en los comentarios acerca de cómo estos nodos tienen valores diferentes en la misma capa, si tienen las mismas entradas? Esto es debido a que deben tener pesos diferentes. Cada nodo en una red neuronal se lleva a $N$ entradas y produce un valor de $\displaystyle y_j = f\left(\sum_{i = 1}^N w_{ji} \cdot x_i + b_j\right)$ donde $f$ es alguna función elegida, en nuestro caso el sigmoide, $w_{ji}$ son los pesos, $x_i$ son las entradas, y $b_j$ es cierto sesgo. Los pesos son elegidos por un algoritmo de optimización para la optimización de nuestro objetivo, por ejemplo, minimizar el error de clasificación. La inicialización es muy importante para el gradiente de la pendiente de los algoritmos que se utilizan generalmente para optimizar los pesos. Ver https://intoli.com/blog/neural-network-initialization/ donde si todos los pesos empezar en 0, la red es incapaz de aprender.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X