67 votos

¿Función costo de red neuronal es no convexo?

La función de coste de la red neuronal es $J(W,b)$, y se afirma que es no-convexa. ¿No entiendo muy bien por qué es así, puesto que como veo que es bastante similar a la función de costo de la regresión logística, derecho?

¿Si es no convexo, así el 2 º pedido derivado $\frac{\partial J}{\partial W} < 0$, derecho?

48voto

AndreasKnudsen Puntos 1918

La función de costo de una red neuronal es en general, ni convexa ni cóncava. Esto significa que la matriz de todas las segundas derivadas parciales (Hesse), no es ni positivo semidefinite, ni negativo semidefinite. Desde la segunda derivada es una matriz, es posible que no es ni uno ni el otro.

Para hacer este análoga a la de una variable funciones, se podría decir que la función de costo es ni la forma de la gráfica de $x^2$ ni como la gráfica de $-x^2$. Otro ejemplo de no-convexo, no cóncava función es$\sin(x)$$\mathbb{R}$. Una de las diferencias más sorprendentes es que el $\pm x^2$ tiene sólo un extremo, mientras que el $\sin$ tiene infinidad de máximos y mínimos.

Cómo se relaciona esto con nuestra red neuronal? Una función de coste $J(W,b)$ tiene también una serie de máximos y mínimos locales, como se puede ver en esta foto, por ejemplo.

El hecho de que $J$ tiene múltiples mínimos también se puede interpretar de una forma agradable. En cada capa, se usan varios nodos que se asignan a distintos parámetros para que la función de costo pequeño. Excepto para los valores de los parámetros, estos nodos son los mismos. Así que usted puede intercambiar los parámetros del primer nodo en una capa con los del segundo nodo en la misma capa, y la contabilidad para que este cambio en las capas siguientes. Se acabaría con un conjunto diferente de parámetros, pero el valor de la función de costo no puede ser distinguido por (básicamente se acaba de mudar a un nodo a otro lugar, pero mantiene todas las entradas/salidas de la misma).

28voto

atebits Puntos 783

Si usted permutar las neuronas en la capa oculta y la misma permutación sobre el peso de las capas adyacentes no cambia la pérdida. Por lo tanto, si hay una minima mundial cero en función de los pesos, entonces no puede ser única ya que da a la permutación de los pesos mínimos otra. Por lo tanto la función no es convexa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X