A menudo se menciona que las unidades lineales rectificadas (ReLU) han reemplazado a las unidades softplus porque son lineales y más rápidas de calcular.
¿Softplus todavía tiene la ventaja de inducir la parsidad o está restringido a la ReLU?
La razón por la que pregunto es que me pregunto sobre las consecuencias negativas de la pendiente cero de la ReLU. ¿No "atrapa" esta propiedad unidades en cero donde podría ser beneficioso darles la posibilidad de reactivación?