54 votos

Peligro de la creación de todos los pesos de iniciales a cero en Backpropagation

¿Por qué es peligroso inicializar los pesos con ceros? ¿Hay algún ejemplo sencillo que demuestra lo?

27voto

Bou Puntos 1859

editar véase alfa de comentarios a continuación. Yo no soy un experto en redes neuronales, así que me voy a ceder a él.

Mi entendimiento es diferente de las otras respuestas que se han publicado aquí.

Estoy bastante seguro de que retropropagación consiste en la adición a la existente pesos, no se multipliquen. La cantidad que se agrega es especificado por la regla delta. Tenga en cuenta que wij no aparecen en el lado derecho de la ecuación.

Mi entendimiento es que hay al menos dos buenas razones para no establecer los pesos iniciales a cero:

  • En primer lugar, las redes neuronales tienden a quedar atrapado en mínimos locales, así que es una buena idea para darles muchos diferentes valores de partida. Usted no puede hacer eso si todos empiezan en cero.

  • Segundo, si las neuronas comienzan con los mismos pesos, entonces todas las neuronas va a seguir la misma pendiente, y siempre terminan haciendo lo mismo que el uno al otro.

14voto

alexs77 Puntos 36

Si el pensamiento de los pesos de los priores, como en una red Bayesiana, entonces usted ha descartado cualquier posibilidad de que los insumos posiblemente podría afectar el sistema. Otra explicación es que la retropropagación identifica el conjunto de pesos que se minimiza el promedio ponderado de el cuadrado de la diferencia entre el objetivo y los valores observados (E). Entonces, ¿cómo podría cualquier algoritmo de descenso de gradiente de estar orientado en términos de la determinación de la dirección del sistema? Se están ubicando en un punto de silla del espacio de parámetros.

7voto

En cada iteración el algoritmo backpropagation, actualizas el peso multiplicando el peso actual por un delta determinado por backpropagation. Si el valor del peso inicial es 0, multiplicando por un valor de delta no va a cambiar el peso que significa que cada iteración no tiene efecto sobre los pesos que usted está tratando de optimizar.

0voto

j_pie Puntos 21

Principal problema con la inicialización de todos los pesos a cero matemáticamente conduce a la neurona valores son cero (por múltiples capas) o el delta sería cero. En uno de los comentarios de @alfa en las respuestas anteriores ya una pista, es de mencionarse que el producto de los pesos y delta debe ser cero. Esto esencialmente significa que para la gradiente de la pendiente está en la cima de la colina a la derecha en su pico y es incapaz de romper la simetría. El azar, la va a romper esta simetría, y se podría llegar mínimo local. Incluso si nos perturban el peso de la(s) un poco lo que sería en la pista. Referencia: Aprendizaje a partir de datos de la clase 10.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X