Asegurémonos primero de que estamos de acuerdo en las definiciones. Consideremos una variable aleatoria binaria $Y \sim \text{Ber}(p)$ y considerar una función de pérdida $L(y_i|s)$ donde $s$ es una estimación de $p$ dados los datos. En tus ejemplos, $s$ es una función de los datos observados $y_1,\dots,y_n$ con $s = \hat{p}$ . La función de pérdida de puntuación de Brier es $L_b(y_i,s) = |y_i - s|^2$ y la función de pérdida absoluta es $L_a(y_i|s) = |y_i - s|$ . Una función de pérdida tiene una pérdida esperada $E_Y(L(Y|s)) := R(p|s)$ . Una función de pérdida es una regla de puntuación correcta si la pérdida esperada $R(p|s)$ se minimiza con respecto a $s$ estableciendo $s=p$ para cualquier $p\in(0,1)$ .
Un truco práctico para comprobarlo es utilizar la naturaleza binaria de $Y$ como para cualquier pérdida esperada, tenemos $$R(p|s) = pL(1|s) + (1-p)L(0|s)$$
Empecemos por verificar que la función de pérdida de Bier es una regla de puntuación adecuada. Obsérvese que $L_b(1|s) = |1-s|^2 = (1-s)^2$ y $L_b(0|s) = s^2$ por lo que utilizando lo anterior, tenemos $$R_b(p|s) = p(1-s)^2 + (1-p)s^2$$
y tomando la derivada de esa función respecto a $s$ y ajustando a $0$ le dará que la elección de $s = p$ minimiza el riesgo esperado. Así pues, la puntuación Brier es, en efecto, una regla de puntuación adecuada.
Por el contrario, recordando el carácter binario de $Y$ podemos escribir la pérdida absoluta $L_a$ como $$L_a(y|s) = y(1-s) + (1-y)s$$ como $y\in\{0,1\}$ . Como tal, tenemos que $$R_a(p|s) = p(1-s) + (1-p)s = p + s - 2ps$$
Desgraciadamente, $R_a(p|s)$ no se minimiza con $s=p$ y considerando los casos extremos, se puede demostrar que $R_a(p|s)$ se minimiza mediante $s=1$ cuando $p>.5$ y por $s=0$ cuando $p<.5$ y se mantiene para cualquier elección de $s$ cuando $p=.5$ .
Así que para responder a sus preguntas, la pérdida absoluta no es una regla de puntuación adecuada, y eso no tiene que ver con el número de categorías de salida. En cuanto a si se puede luchar, desde luego no se me ocurre cómo... Creo que esos intentos de pensar en enfoques similares probablemente te lleven a la puntuación Brier :).
Edita:
En respuesta al comentario de OP, tenga en cuenta que el enfoque de la pérdida absoluta consiste básicamente en estimar la mediana de $Y$ que en el caso binario es, en la expectativa, o bien $0$ o $1$ en función de $p$ . La pérdida absoluta no penaliza la elección alternativa lo suficiente como para querer elegir otra cosa que no sea el valor que más aparece. En cambio, el error cuadrático penaliza la alternativa lo suficiente como para encontrar un término medio que coincida con la media $p$ . Esto también debería poner de relieve que no hay nada malo en utilizar la pérdida absoluta como clasificador, y se puede pensar que está relacionado con determinar, para un problema dado, si te importa más la media o la mediana. Para los datos binarios, personalmente diría que la media es más interesante (conocer la mediana le dice si p > .5, pero conocer la media le dice una declaración más precisa sobre $p$ ), pero depende. Como también subraya el otro post, no hay nada malo en la pérdida absoluta, simplemente no es una regla de puntuación adecuada.