¿Por qué las funciones de activación de las unidades lineales rectificadas (ReLU) se consideran no lineales?
$$ f(x) = \max(0,x)$$
Son lineales cuando la entrada es positiva y desde mi entendimiento para desbloquear el poder representativo de las redes profundas las activaciones no lineales son una necesidad, de lo contrario toda la red podría ser representada por una sola capa.