Cuando se utiliza como función de activación en redes neuronales profundas La función ReLU supera a otras funciones no lineales como tanh o sigmoide . En mi opinión, el objetivo de una función de activación es permitir que las entradas ponderadas de una neurona interactúen de forma no lineal. Por ejemplo, cuando se utiliza $sin(z)$ como la activación, la salida de una neurona de dos entradas sería:
$$ sin(w_0+w_1*x_1+w_2*x_2) $$
que se aproximaría a la función $$ (w_0+w_1*x_1+w_2*x_2) - {(w_0+w_1*x_1+w_2*x_2)^3 \over 6} + {(w_0+w_1*x_1+w_2*x_2)^5 \over 120} $$
y contienen todo tipo de combinaciones de diferentes potencias de las características $x_1$ y $x_2$ .
Aunque la ReLU también es técnicamente una función no lineal, no veo cómo puede producir términos no lineales como el $sin(), tanh()$ y otras activaciones lo hacen.
Edición: Aunque mi pregunta es similar a esta pregunta Me gustaría saber cómo incluso una cascada de ReLUs son capaces de aproximar tales términos no lineales.