2 votos

Impacto real de W=0 en una red neuronal

Según tengo entendido, uno de los principales problemas que se alegan para inicializar, por ejemplo, una red neuronal feed-forward (con varios $\text{tanh}$ o $\text{ReLU}$ capas) con $W=0$ es que no se rompe " simetría de la red ", es decir, la retropropagación propagaría el mismo error a través de todas esas unidades (es decir, "empujando todos los pesos en la misma dirección"). Supongo que esto no es deseable porque no aprender cálculos "diferentes" a través de diferentes caminos de la red.

Sin embargo, estoy confundido por qué eso importa en este caso dado que si $W$ siempre baja a 0, estaremos efectivamente propagando sin gradientes en absoluto a través de la red, ya que W=0 multiplicaría todos los errores de la salida e impediría cualquier aprendizaje.

Dicho de otro modo, aunque $W=0$ hace no romper la simetría de la red (desperdiciando cálculos y caminos en la red) es correcto decir que si $W=0$ (por ejemplo, mediante la inicialización) estamos efectivamente matando a gradientes en una red neuronal, y por lo tanto no puede haber aprendizaje?

2voto

Aksakal Puntos 11351

Es más sencillo. El gradiente de la función objetivo será de la forma $\frac \partial {\partial w_i} \mathcal L=\alpha $ es decir, todos los componentes de un gradiente serán iguales (dentro de una capa). Como tu paso en la optimización es proporcional al gradiente, estarás haciendo el mismo paso en todas las direcciones $\Delta w_i=\alpha \eta$ Así que sus pesos serán los mismos dentro de una capa todo el tiempo. Denoté una tasa de aprendizaje $\eta$ . El tamaño del paso en la dirección de los parámetros $\Delta w_i$ suele ser proporcional a un gradiente y a una tasa de aprendizaje.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X