14 votos

¿Es convexa la función de coste de la entropía cruzada para la red neuronal?

Mi profesor demostró que la segunda derivada de la entropía cruzada es siempre positiva, por lo que la función de coste de las redes neuronales que utilizan la entropía cruzada es convexa. ¿Es esto cierto? Estoy bastante confundido sobre esto porque siempre he aprendido que la función de coste de las RNA no es convexa. ¿Alguien puede confirmarlo? Muchas gracias. http://z0rch.com/2014/06/05/cross-entropy-cost-function

8 votos

¿El enlace está roto?

11voto

andynormancx Puntos 234

La entropía cruzada de una familia exponencial es siempre convexa. Así, para una red neuronal multicapa que tiene entradas $x$ , pesos $w$ y la salida $y$ y la función de pérdida $L$

$$\nabla^2_y L$$

es convexo. Sin embargo,

$$\nabla^2_w L$$

no va a ser convexo para los parámetros de la capa intermedia por las razones descritas por iamonaboat.

7voto

Kuba Spatny Puntos 111

Tienes razón al sospechar que el problema de optimización de la RNA del problema de entropía cruzada será no convexo. Nota: estamos hablando de una red neuronal con función de activación no lineal en la capa oculta. Si no se utiliza una función de activación no lineal, la RNA implementa una función lineal y el problema se vuelve convexo.

Así pues, la razón por la que la optimización de la entropía cruzada de una RNA no es convexa se debe a la parametrización subyacente de la RNA. Si se utiliza una red neuronal lineal, se puede hacer convexa (se parecerá esencialmente a la regresión logística, que es un problema convexo).

7voto

Mark Puntos 3097

Lo que dijo @ngiann, y Informalmente, si se permutan las neuronas de la capa oculta y se hace la misma permutación en los pesos de las capas adyacentes, la pérdida no cambia.

Por lo tanto, si hay un mínimo global no nulo en función de los pesos, entonces no puede ser único ya que la permutación de los pesos da otro mínimo global. Por lo tanto, la función no es convexa.

La matriz de todas las segundas derivadas parciales (el hessiano) no es ni semidefinida positiva ni semidefinida negativa. Dado que la segunda derivada es una matriz, es posible que no sea ni lo uno ni lo otro.

2 votos

Si quieres ser pedante en lugar de informal, la definición habitual de convexidad de una función no requiere un mínimo global único, por lo que la no unicidad de los mínimos no implica la no convexidad. Sin embargo, permutar los pesos de esta manera tampoco cambia la salida real de tu red, así que incluso sin convexidad, podrías tener la propiedad de que tu función de entrenamiento converge a la misma ~función cada vez. Apuesto a que hay una manera de romper esta simetría para ordenar los pesos sin arruinar otras propiedades de la función de pérdida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X