Según tengo entendido, uno de los principales problemas que se alegan para inicializar, por ejemplo, una red neuronal feed-forward (con varios $\text{tanh}$ o $\text{ReLU}$ capas) con $W=0$ es que no se rompe " simetría de la red ", es decir, la retropropagación propagaría el mismo error a través de todas esas unidades (es decir, "empujando todos los pesos en la misma dirección"). Supongo que esto no es deseable porque no aprender cálculos "diferentes" a través de diferentes caminos de la red.
Sin embargo, estoy confundido por qué eso importa en este caso dado que si $W$ siempre baja a 0, estaremos efectivamente propagando sin gradientes en absoluto a través de la red, ya que W=0
multiplicaría todos los errores de la salida e impediría cualquier aprendizaje.
Dicho de otro modo, aunque $W=0$ hace no romper la simetría de la red (desperdiciando cálculos y caminos en la red) es correcto decir que si $W=0$ (por ejemplo, mediante la inicialización) estamos efectivamente matando a gradientes en una red neuronal, y por lo tanto no puede haber aprendizaje?