40 votos

¿Cuáles son los beneficios de usar ReLU sobre softplus como funciones de activación?

A menudo se menciona que las unidades lineales rectificadas (ReLU) han reemplazado a las unidades softplus porque son lineales y más rápidas de calcular.

¿Softplus todavía tiene la ventaja de inducir la parsidad o está restringido a la ReLU?

La razón por la que pregunto es que me pregunto sobre las consecuencias negativas de la pendiente cero de la ReLU. ¿No "atrapa" esta propiedad unidades en cero donde podría ser beneficioso darles la posibilidad de reactivación?

6voto

que que Puntos 1435

De hecho, las ReLO se pueden apagar permanentemente, particularmente bajo altas tasas de aprendizaje. Esta es una motivación detrás de las activaciones de ReLU y ELU con fugas, las cuales tienen un gradiente distinto de cero en casi todas partes.

Leaky ReLU es una función lineal por partes, al igual que para ReLU, tan rápida de calcular. ELU tiene la ventaja sobre softmax y ReLU de que su producción media está más cerca de cero, lo que mejora el aprendizaje.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X