20 votos

(Por qué) ¿La pérdida absoluta no es una regla de puntuación adecuada?

La puntuación de Brier es una regla de puntuación adecuada y es, al menos en el caso de la clasificación binaria, una pérdida cuadrada.

$$Brier(y,\hat{y}) = \frac{1}{N} \sum_{i=1}^N\big\vert y_i -\hat{y}_i\big\vert^2$$

Al parecer, esto se puede ajustar para cuando hay tres o más clases.

En otro post sobre Cross Validated se menciona que la pérdida absoluta no es una regla de puntuación adecuada.

$$ absoluteLoss(y,\hat{y}) = \frac{1}{N} \sum_{i=1}^N\big\vert y_i -\hat{y}_i\big\vert $$

Parece lo suficientemente similar a la puntuación de Brier como para que sea una regla de puntuación adecuada.

  1. ¿Por qué la pérdida absoluta no es una regla de puntuación adecuada?

  2. ¿Es la pérdida absoluta una regla de puntuación adecuada en el caso de la clasificación binaria que pierde su "propiedad" cuando hay más de dos categorías de salida?

  3. ¿Se puede luchar con la pérdida absoluta como la puntuación de Brier para tener una forma adecuada cuando hay más de dos clases?

Al menos en el caso binario, la pérdida absoluta tiene una interpretación más fácil que la puntuación de Brier o la raíz cuadrada de la puntuación de Brier, ya que dice la cantidad media en la que una probabilidad predicha difiere del resultado observado, por lo que me gustaría tener una forma de que la pérdida absoluta sea adecuada.

21voto

blembo Puntos 3

Asegurémonos primero de que estamos de acuerdo en las definiciones. Consideremos una variable aleatoria binaria $Y \sim \text{Ber}(p)$ y considerar una función de pérdida $L(y_i|s)$ donde $s$ es una estimación de $p$ dados los datos. En tus ejemplos, $s$ es una función de los datos observados $y_1,\dots,y_n$ con $s = \hat{p}$ . La función de pérdida de puntuación de Brier es $L_b(y_i,s) = |y_i - s|^2$ y la función de pérdida absoluta es $L_a(y_i|s) = |y_i - s|$ . Una función de pérdida tiene una pérdida esperada $E_Y(L(Y|s)) := R(p|s)$ . Una función de pérdida es una regla de puntuación correcta si la pérdida esperada $R(p|s)$ se minimiza con respecto a $s$ estableciendo $s=p$ para cualquier $p\in(0,1)$ .

Un truco práctico para comprobarlo es utilizar la naturaleza binaria de $Y$ como para cualquier pérdida esperada, tenemos $$R(p|s) = pL(1|s) + (1-p)L(0|s)$$

Empecemos por verificar que la función de pérdida de Bier es una regla de puntuación adecuada. Obsérvese que $L_b(1|s) = |1-s|^2 = (1-s)^2$ y $L_b(0|s) = s^2$ por lo que utilizando lo anterior, tenemos $$R_b(p|s) = p(1-s)^2 + (1-p)s^2$$

y tomando la derivada de esa función respecto a $s$ y ajustando a $0$ le dará que la elección de $s = p$ minimiza el riesgo esperado. Así pues, la puntuación Brier es, en efecto, una regla de puntuación adecuada.

Por el contrario, recordando el carácter binario de $Y$ podemos escribir la pérdida absoluta $L_a$ como $$L_a(y|s) = y(1-s) + (1-y)s$$ como $y\in\{0,1\}$ . Como tal, tenemos que $$R_a(p|s) = p(1-s) + (1-p)s = p + s - 2ps$$

Desgraciadamente, $R_a(p|s)$ no se minimiza con $s=p$ y considerando los casos extremos, se puede demostrar que $R_a(p|s)$ se minimiza mediante $s=1$ cuando $p>.5$ y por $s=0$ cuando $p<.5$ y se mantiene para cualquier elección de $s$ cuando $p=.5$ .

Así que para responder a sus preguntas, la pérdida absoluta no es una regla de puntuación adecuada, y eso no tiene que ver con el número de categorías de salida. En cuanto a si se puede luchar, desde luego no se me ocurre cómo... Creo que esos intentos de pensar en enfoques similares probablemente te lleven a la puntuación Brier :).

Edita:

En respuesta al comentario de OP, tenga en cuenta que el enfoque de la pérdida absoluta consiste básicamente en estimar la mediana de $Y$ que en el caso binario es, en la expectativa, o bien $0$ o $1$ en función de $p$ . La pérdida absoluta no penaliza la elección alternativa lo suficiente como para querer elegir otra cosa que no sea el valor que más aparece. En cambio, el error cuadrático penaliza la alternativa lo suficiente como para encontrar un término medio que coincida con la media $p$ . Esto también debería poner de relieve que no hay nada malo en utilizar la pérdida absoluta como clasificador, y se puede pensar que está relacionado con determinar, para un problema dado, si te importa más la media o la mediana. Para los datos binarios, personalmente diría que la media es más interesante (conocer la mediana le dice si p > .5, pero conocer la media le dice una declaración más precisa sobre $p$ ), pero depende. Como también subraya el otro post, no hay nada malo en la pérdida absoluta, simplemente no es una regla de puntuación adecuada.

12voto

  1. Pongamos un ejemplo sencillo $p_i$ son probabilidades conocidas y $y_i$ son Bernoulli( $p_i$ ).

¿Qué es la $\hat y_i$ ? En mejor elección es obviamente $\hat y_i=p_i$ . Alternativamente, podríamos tomar $\check y_i = 1$ si $p_i>0.5$ y $\check y_i=0$ si $p_i<0.5$ .

Supongamos que $p_i>0.5$ (para simplificar).

La pérdida esperada de Brier de $\hat y_i$ es $(1-p_i)^2p_i+p_i^2(1-p_i)=1-p_i^2$ . La pérdida Brier esperada de $\check y_i$ es $0^2\times p_i + 1^2\times (1-p_i)=1$ Así que $\hat y_i$ es preferible a $\check y_i$ .

La pérdida absoluta esperada de $\hat y_i$ es $(1-p_i)p_i+p_i(1-p_i)=2p_i(1-p_i)$ . La pérdida Brier esperada de $\check y_i$ es $0\times p_i + 1\times (1-p_i)=1-p_i$ y puesto que $p_i>0.5$ , $2p_i(1-p_i)>(1-p_i)$ así que $\check y_i$ es preferible a $\hat y_i$ .

Entonces, minimizar la pérdida absoluta te hace decir $\check y_i$ es mejor que verdadero probabilidad $\hat y_i$ que es lo que significa ser impropio.

Tenga en cuenta que $\check y_i$ es la mediana de $Y_i|p_i$ por lo que no es necesariamente un mal estimador. Y el error absoluto no es necesariamente un mal función de pérdida. No es una regla de puntuación adecuada.

Si se va a tener una pérdida continua como esta sea adecuada tendrá que penalizar más los errores grandes que los pequeños, por lo que no tendrá la interpretación que se quiere que tenga.

  1. No, tienes los mismos problemas

  2. No, tienes los mismos problemas

7voto

Tim Puntos 11

En una dirección ligeramente diferente, una forma de ver esto es considerar de forma más general la puntuación de probabilidad clasificada continua (CRPS), que es una regla de puntuación adecuada.

Para una FCD prevista $F$ y una observación $y$ , el CRPS se define así:

$$\text{CRPS}(F,y) = \int (F(z)-I(y\leq z))^2dz$$

Intuitivamente es una medida de la distancia entre $F$ y una FCD predicha perfecta, exacta y sin incertidumbre (es decir $P[Y=y]=1$ ).

Limitémonos a $y$ siendo 0 ó 1. Si nuestra predicción $F$ es la FCD de una distribución Bernoulli con parámetro $\hat{p}$ entonces se puede demostrar con bastante facilidad que:

$$\text{CRPS}(F,y) = (y-\hat{p})^2$$

Es decir, el CRPS sólo se reduce a la puntuación de Brier cuando las observaciones son 0-1 y $F$ es Bernoulli.

Nos gustaría encontrar una distribución $F$ para los que el CRPS se reduce, en cambio, al error absoluto. Una posibilidad es tomar la previsión degenerada $P[Y=\hat{y}]=1$ . Es decir, esta predicción es que $Y$ no es realmente aleatorio, y en lugar de ser 0 o 1, es siempre $\hat{y}$ . Entonces, podemos mostrar:

$$\text{CRPS}(F,y) = |y-\hat{y}|$$

Como han demostrado las otras respuestas, esto se minimiza en $\hat{y}=0$ o $\hat{y}=1$ . Esto no debería ser especialmente sorprendente; cualquier otro valor significa que, en nuestra predicción $F$ la probabilidad de observar 0 o 1 es cero, lo que no debería darte una buena puntuación dado que hemos asumido que esas son las únicas posibilidades.

Entonces, en el contexto de datos 0-1, minimizar el error absoluto es algo así como minimizar CRPS (que es adecuado) pero sobre una clase de distribuciones que no contiene distribuciones Bernoulli con $0 < p < 1$ por lo que no es apropiado en general.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X