25 votos

Puntaje Brier y desequilibrio extremo de clases

Dado que he escuchado sobre reglas de puntuación adecuadas para la clasificación binaria como la puntuación Brier o la Pérdida Logarítmica, estoy cada vez más convencido de que están drásticamente subrepresentadas en la práctica a favor de medidas como la precisión, el AUC-ROC o F1. Como quiero impulsar un cambio hacia reglas de puntuación adecuadas para la comparación de modelos en mi organización, hay un argumento común que no puedo responder completamente:

Si hay un desequilibrio extremo de clases (por ejemplo, 5 casos positivos vs 1,000 casos negativos), ¿cómo asegura la puntuación Brier que seleccionemos el modelo que nos brinde el mejor rendimiento en cuanto a pronósticos de alta probabilidad para los 5 casos positivos? Ya que no nos importa si los casos negativos tienen predicciones cercanas a 0 o 0.5 siempre y cuando sean relativamente más bajas que las de las clases positivas.

Actualmente tengo dos posibles respuestas disponibles, pero me encantaría escuchar opiniones de expertos sobre este tema:

1. "La puntuación Brier como regla de puntuación adecuada otorga el peso adecuado a los eventos raros en la evaluación del rendimiento. La capacidad discriminativa puede examinarse aún más con el AUC-ROC."

Esto sigue la lógica del comentario de Frank Harrell a una pregunta relacionada: "Los pronósticos de eventos raros tienen el efecto "correcto" en la media, es decir, la probabilidad predicha media del evento = proporción general de eventos. La puntuación Brier funciona sin importar la prevalencia de los eventos." Como él sugiere además, uno podría complementar la puntuación Brier con el AUC-ROC para examinar en qué medida se logró el ranking relativo deseado de casos positivos sobre casos negativos.

2. "Podemos usar la puntuación Brier estratificada para ponderar de manera equitativa el rendimiento del pronóstico con respecto a cada clase."

Esto sigue la lógica de la argumentación de este documento: "Promediar la puntuación Brier de todas las clases da como resultado la puntuación Brier estratificada. La puntuación Brier estratificada es más apropiada cuando hay desequilibrio de clases, ya que otorga igual importancia a todas las clases y permite detectar cualquier descalibración de las clases minoritarias.". No estoy seguro si la pérdida de la propiedad de regla de puntuación estrictamente adecuada vale la mayor ponderación de la clase minoritaria de interés y si hay un fundamento estadístico sólido para usar esta forma arbitraria de reponderación ("Si seguimos este enfoque, ¿qué nos impide ir más allá y ponderar la clase minoritaria 2, 17 o 100 veces más que la otra clase?").

15voto

icelava Puntos 548

Si hay un desequilibrio extremo de clases (por ejemplo, 5 casos positivos vs. 1,000 casos negativos), ¿cómo garantiza la puntuación de Brier que seleccionemos el modelo que nos brinde el mejor rendimiento en cuanto a pronósticos de alta probabilidad para los 5 casos positivos? Ya que no nos importa si los casos negativos tienen predicciones cercanas a 0 o 0.5 siempre y cuando sean relativamente más bajas que las de las clases positivas.

Esto depende crucialmente de si podemos separar subpoblaciones con diferentes probabilidades de clase basadas en los predictores. Como ejemplo extremo, si no hay (o no hay útiles) predictores, entonces las probabilidades predichas para todas las instancias serán iguales, y requerir predicciones más bajas para clases negativas vs. positivas no tiene sentido, ya sea que estemos viendo puntuaciones de Brier u otras funciones de pérdida.

Sí, esto es bastante obvio. Pero necesitamos tenerlo en cuenta.

Así que veamos el segundo caso más simple. Supongamos que tenemos un predictor que separa nuestra población claramente en dos subpoblaciones. Entre la subpoblación 1, hay 4 casos positivos y 200 casos negativos. Entre la subpoblación 2, hay 1 caso positivo y 800 casos negativos. (Los números coinciden con tu ejemplo.) Y nuevamente, no hay posibilidad de dividir más las subpoblaciones.

Entonces obtendremos probabilidades predichas constantes de pertenecer a la clase positiva $p_1$ para la subpoblación 1 y $p_2$ para la subpoblación 2. La puntuación de Brier entonces es

$$ \frac{1}{5+1000}\big(4(1-p_1)^2+200p_1^2+1(1-p_2)^2+800p_2^2\big). $$

Usando un poco de cálculo, encontramos que esto se optimiza por

$$ p_1 = \frac{1}{51} \quad\text{y}\quad p_2=\frac{1}{801}, $$

que son precisamente las proporciones de clases positivas en las dos subpoblaciones. Lo cual es como debería ser, porque esto es lo que significa que la puntuación de Brier sea adecuada.

Y ahí lo tienes. La puntuación de Brier, siendo adecuada, será optimizada por las verdaderas probabilidades de pertenencia a la clase. Si tienes predictores que te permiten identificar subpoblaciones o instancias con una probabilidad verdadera más alta, entonces la puntuación de Brier te incentivará a generar estas probabilidades más altas. Por otro lado, si no puedes identificar tales subpoblaciones, entonces la puntuación de Brier no puede ayudarte, pero tampoco puede nada más simplemente porque la información no está ahí.

Sin embargo, la puntuación de Brier no te ayudará a sobreestimar la probabilidad en la subpoblación 1 y a subestimar la probabilidad en la subpoblación 2 más allá de los valores verdaderos $p_1=\frac{1}{51}$ y $p_2=\frac{1}{801}$, por ejemplo, porque "hay más casos positivos en la subpoblación 1 que en la 2". Sí, es cierto, pero ¿qué utilidad tendría sobre/subestimar este valor? Ya sabemos acerca de la diferencia basada en las diferencias en $p_1$ y $p_2$, y sesgar estos no nos servirá para nada.

En particular, no hay nada en un análisis de ROC que pueda ayudarte más allá de encontrar un umbral "óptimo" (sobre lo cual pontifico aquí). Y finalmente, no hay nada en este análisis que dependa de ninguna manera de que las clases estén balanceadas o no, por lo que sostengo que los conjuntos de datos desequilibrados no son un problema.

Finalmente, por eso no veo las dos respuestas que propones como útiles. La puntuación de Brier nos ayuda a llegar a las verdaderas probabilidades de pertenencia a la clase. Lo que hagamos entonces con estas probabilidades dependerá de nuestra estructura de costes, y según mi publicación sobre umbrales arriba, ese es un problema separado. Sí, dependiendo de esta estructura de costes, podemos terminar con una versión algebraicamente reformulada de una puntuación de Brier estratificada, pero mantener separados los aspectos estadísticos y de teoría de decisiones hace que el proceso sea mucho más limpio.

5voto

sum1stolemyname Puntos 2400

El artículo "Las estimaciones de probabilidad de clase son poco confiables para datos desequilibrados (y cómo arreglarlos)" (Wallace & Dahabreh 2012) argumenta que el puntaje Brier tal como está falla en tener en cuenta las malas calibraciones en las clases minoritarias. Proponen un puntaje Brier estratificado:

$$BS^+ = \frac{\sum_{y_i=1}\left(y_i- \hat{P}\left\{y_i|x_i\right\}\right)^2}{N_{pos}}$$ $$BS^- = \frac{\sum_{y_i=0}\left(y_i- \hat{P}\left\{y_i|x_i\right\}\right)^2}{N_{neg}}$$

Desafortunadamente, esto no le brinda una métrica única con la cual optimizar, pero podría tomar el máximo de los puntajes Brier estratificados para su modelo y tomar una decisión basada en el peor rendimiento en todas las clases.

Como nota adicional, los autores señalan que las estimaciones de probabilidad obtenidas utilizando la escalada de Platt también son lamentablemente inexactas para la clase minoritaria. Para remediar esto, se propone alguna combinación de submuestreo y bagging.

1voto

John Richardson Puntos 1197

Si hay un desequilibrio extremo de clases (por ejemplo, 5 casos positivos vs 1,000 casos negativos), ¿cómo asegura la puntuación de Brier que seleccionemos el modelo que nos brinde el mejor rendimiento en cuanto a pronósticos de alta probabilidad para los 5 casos positivos? Ya que no nos importa si los casos negativos tienen predicciones cercanas a 0 o 0.5 siempre y cuando sean relativamente más bajas que aquellas para las clases positivas

No asegura eso, vea mi contraejemplo aquí:

¿Por qué la precisión no es la mejor medida para evaluar modelos de clasificación?

Eso no significa que la puntuación de Brier no sea una buena idea, solo que no es una panacea (porque no tiene en cuenta el propósito del análisis y simplemente mide la calidad de las estimaciones de probabilidad en todos lados según la densidad de los datos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X