La función que proponemos tiene una singularidad siempre que la suma de los elementos es cero.
Supongamos que el vector es $[-1, \frac{1}{3}, \frac{2}{3}]$. Este vector tiene una cantidad de 0, por lo que la división no está definida. La función no es diferenciable aquí.
Además, si uno o más de los elementos del vector a es negativo, pero la suma no es cero, el resultado no es una probabilidad.
Supongamos que el vector es $[-1, 0, 2]$. Esto tiene una suma de 1, por lo que la aplicación de sus resultados en función de $[-1, 0, 2]$, que no es un vector de probabilidad porque tiene elementos negativos, y los elementos superiores a 1.
Teniendo una visión más amplia, podemos motivar a la forma específica de la softmax función desde la perspectiva de la ampliación de la regresión logística binaria para el caso de tres o más resultados categóricos.
Hacer cosas como tomar valores absolutos o cuadrados, como se sugiere en los comentarios, significa que $-x$ e $x$ tienen la misma probabilidad predicha; esto significa que el modelo no es identificado. Por el contrario, $\exp(x)$ es monótona y positivo para todos los verdaderos $x$, por lo que el resultado es (1) una probabilidad del vector y (2) la logística multinomial modelo está identificado.