¿Es convexa la función de coste de la entropía cruzada para la red neuronal?

Question

¿Es convexa la función de coste de la entropía cruzada para la red neuronal?

Preguntado el 1 de Abril, 2015: Cuando se hizo la pregunta
371 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Mi profesor demostró que la segunda derivada de la entropía cruzada es siempre positiva, por lo que la función de coste de las redes neuronales que utilizan la entropía cruzada es convexa. ¿Es esto cierto? Estoy bastante confundido sobre esto porque siempre he aprendido que la función de coste de las RNA no es convexa. ¿Alguien puede confirmarlo? Muchas gracias. http://z0rch.com/2014/06/05/cross-entropy-cost-function

Preguntado el 1 de Abril, 2015 por xuancanh

8 votos

¿El enlace está roto?

Comentado el 27 de Julio, 2015 por Luke Chadwick

Answer 1

3 Respuestas

Answer 2

11voto

andynormancx Puntos 234

La entropía cruzada de una familia exponencial es siempre convexa. Así, para una red neuronal multicapa que tiene entradas $x$ , pesos $w$ y la salida $y$ y la función de pérdida $L$

$$\nabla^2_y L$$

es convexo. Sin embargo,

$$\nabla^2_w L$$

no va a ser convexo para los parámetros de la capa intermedia por las razones descritas por iamonaboat.

Respondido el 1 de Febrero, 2016 por andynormancx (234 Puntos )

Answer 3

7voto

Kuba Spatny Puntos 111

Tienes razón al sospechar que el problema de optimización de la RNA del problema de entropía cruzada será no convexo. Nota: estamos hablando de una red neuronal con función de activación no lineal en la capa oculta. Si no se utiliza una función de activación no lineal, la RNA implementa una función lineal y el problema se vuelve convexo.

Así pues, la razón por la que la optimización de la entropía cruzada de una RNA no es convexa se debe a la parametrización subyacente de la RNA. Si se utiliza una red neuronal lineal, se puede hacer convexa (se parecerá esencialmente a la regresión logística, que es un problema convexo).

Respondido el 27 de Julio, 2015 por Kuba Spatny (111 Puntos )

Answer 4

7voto

Mark Puntos 3097

Lo que dijo @ngiann, y Informalmente, si se permutan las neuronas de la capa oculta y se hace la misma permutación en los pesos de las capas adyacentes, la pérdida no cambia.

Por lo tanto, si hay un mínimo global no nulo en función de los pesos, entonces no puede ser único ya que la permutación de los pesos da otro mínimo global. Por lo tanto, la función no es convexa.

La matriz de todas las segundas derivadas parciales (el hessiano) no es ni semidefinida positiva ni semidefinida negativa. Dado que la segunda derivada es una matriz, es posible que no sea ni lo uno ni lo otro.

Respondido el 1 de Febrero, 2016 por Mark (3097 Puntos )

2 votos

Si quieres ser pedante en lugar de informal, la definición habitual de convexidad de una función no requiere un mínimo global único, por lo que la no unicidad de los mínimos no implica la no convexidad. Sin embargo, permutar los pesos de esta manera tampoco cambia la salida real de tu red, así que incluso sin convexidad, podrías tener la propiedad de que tu función de entrenamiento converge a la misma ~función cada vez. Apuesto a que hay una manera de romper esta simetría para ordenar los pesos sin arruinar otras propiedades de la función de pérdida.

Comentado el 23 de Septiembre, 2016 por Kirsty

¿Es convexa la función de coste de la entropía cruzada para la red neuronal?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Es convexa la función de coste de la entropía cruzada para la red neuronal?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: