10 votos

¿Una red neuronal diseñada de forma óptima no contiene neuronas ReLU "muertas" cuando se entrena?

En general, ¿debo volver a entrenar mi red neuronal con menos neuronas para que tenga menos neuronas ReLU muertas? He leído opiniones contradictorias sobre las ReLU muertas. Algunas fuentes dicen que las ReLU muertas son buenas porque fomentan la dispersión. Otras dicen que son malas porque las ReLU muertas están muertas para siempre e inhiben el aprendizaje. ¿Existe un término medio?

9voto

throwaway Puntos 18

Hay una diferencia entre las ReLUs muertas y las ReLUs que son silenciosas en muchas -pero no todas- las entradas. Las ReLUs muertas deben evitarse, mientras que las ReLUs mayoritariamente silenciosas pueden ser útiles por la escasez que inducen.

Las ReLUs muertas han entrado en un régimen de parámetros en el que siempre están en el dominio negativo de la función de activación. Esto puede ocurrir, por ejemplo, si el sesgo se establece en un valor negativo grande. Como la función de activación es cero para los valores negativos, estas unidades son silenciosas para todas las entradas. Cuando una ReLU es silenciosa, el gradiente de la función de pérdida con respecto a los parámetros es cero, por lo que no se producirán actualizaciones de los parámetros con el aprendizaje basado en el gradiente. Como las ReLUs muertas son silenciosas para todas las entradas, están atrapadas en este régimen.

Contrasta con una ReLU que no dice nada sobre muchas pero no todas las entradas. En este caso, el gradiente sigue siendo cero cuando la unidad es silenciosa. Si utilizamos un procedimiento de aprendizaje en línea como el descenso de gradiente minibatch/estocástico, no se actualizarán los parámetros para las entradas que hacen que la unidad esté en silencio. Sin embargo, las actualizaciones son posibles para otras entradas, cuando la unidad está activa y el gradiente es distinto de cero.

Como las ReLUs muertas son silenciosas para todas las entradas, no aportan nada a la red y se desperdician. Desde el punto de vista de la teoría de la información, cualquier unidad que tenga el mismo valor de salida para todas las entradas (ya sea cero o no) no aporta ninguna información sobre la entrada. Las ReLUs más silenciosas se comportan de forma diferente para las distintas entradas y, por lo tanto, mantienen la capacidad de transmitir información útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X