6 votos

¿Son suficientes las curvas ROC no cruzadas para clasificar los clasificadores en función de la pérdida esperada?

Tenemos dos modelos que producen estimaciones de las probabilidades de clase. En combinación con un umbral de probabilidad, se obtienen decisiones de clasificación: si la probabilidad estimada de la clase 1 es superior al umbral, la etiqueta asignada es la clase 1; en caso contrario, es la clase 0. Queremos comparar los modelos en función de su pérdida esperada estimada para un umbral determinado. La función de pérdida $L(\hat{Y},Y)$ viene dada por \begin{aligned} L(0,0)&=0, \\ L(0,1)&=a, \\ L(1,0)&=b, \\ L(1,1)&=0 \end{aligned} con $a,b>0$ . No disponemos de las pérdidas estimadas en una submuestra de prueba. Sin embargo, disponemos de las curvas ROC en la submuestra de prueba para cada modelo. No disponemos de los datos que hay detrás de las dos curvas ROC, pero observamos visualmente que la primera curva ROC domina por completo a la segunda, es decir, las dos curvas nunca se cruzan (sólo se tocan en las esquinas inferior izquierda y superior derecha).

Pregunta: ¿Es suficiente para concluir que el primer modelo tiene una pérdida esperada estimada menor que el segundo (para un umbral dado)? Si no es así, ¿podría ofrecer un contraejemplo?

Se ofreció una recompensa por esta pregunta, pero no he recibido una respuesta satisfactoria. Si puede responder a la pregunta, consideraré la posibilidad de concederle otra recompensa.

Pregunta relacionada: <a href="https://stats.stackexchange.com/questions/550362">"¿Es suficiente un par de puntos específicos del umbral en dos curvas ROC para clasificar los clasificadores según la pérdida esperada?". </a>.

0voto

dan90266 Puntos 609

Las curvas ROC son incompatibles con una toma de decisiones óptima porque cada punto de la curva condiciona el futuro para predecir el pasado. Véase https://www.fharrell.com/post/mlconfusion . Para medidas útiles del rendimiento predictivo, véase https://fharrell.com/post/addvalue .

La pérdida esperada se calcula a partir de medidas que respetan la dirección del flujo de información, por ejemplo, predecir el futuro a partir del pasado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X