79 votos

F1/Dice-Score vs IoU

Estaba confundido acerca de las diferencias entre la puntuación F1, la puntuación Dice y la IoU (intersección sobre la unión). Por ahora he descubierto que F1 y Dice significan lo mismo (¿verdad?) y que IoU tiene una fórmula muy similar a las otras dos.

  • F1 / Dados: $$\frac{2TP}{2TP+FP+FN}$$
  • IoU / Jaccard: $$\frac{TP}{TP+FP+FN}$$

¿Hay alguna diferencia práctica u otras cosas que merezca la pena señalar, excepto que la F1 pondera más los verdaderos positivos? ¿Hay alguna situación en la que usaría uno pero no el otro?

1 votos

Al parecer, el coeficiente de Jaccard también es el mismo que IoU

0 votos

Me interesaría especialmente si algunas de estas medidas (ahora 4) sólo sirven para datos binarios.

2 votos

Hice algunos gráficos de contorno para IoU y F1 para la comprensión intuitiva inspirado en una de las respuestas anteriores. He publicado mis gráficos en tomkwok.com/posts/iou-vs-f1 .

121voto

Tristan C Puntos 11

Vas por buen camino.

Así que algunas cosas de entrada. A partir de la definición de las dos métricas, tenemos que el IoU y la puntuación F están siempre dentro de un factor de 2 entre sí: $$ F/2 \leq IoU \leq F $$ y también que se encuentran en los extremos del uno y del cero en las condiciones que cabría esperar (coincidencia perfecta y desunión total).

Obsérvese también que la relación entre ellos puede relacionarse explícitamente con el IoU: $$ IoU/F = 1/2 + IoU/2 $$ para que la relación se acerque a 1/2 a medida que ambas métricas se acercan a cero.

Pero hay una afirmación más fuerte que se puede hacer para la aplicación típica de la clasificación a la máquina de aprendizaje. Para cualquier "verdad básica" fija, las dos métricas son siempre correlacionados positivamente. Es decir, si el clasificador A es mejor que el B bajo una métrica, también es mejor que el clasificador B bajo la otra métrica.

Es tentador concluir entonces que las dos métricas son funcionalmente equivalentes, por lo que la elección entre ellas es arbitraria, pero ¡no tan rápido! El problema viene cuando se toma la puntuación media sobre un conjunto de inferencias . Entonces, la diferencia surge al cuantificar cómo mucho peor es el clasificador B que el A para un caso determinado.

En general, la métrica IoU tiende a penalizar cuantitativamente los casos individuales de mala clasificación más que la puntuación F, incluso cuando ambos pueden coincidir en que este caso es malo. De forma similar a cómo L2 puede penalizar los errores más grandes más que L1, la métrica IoU tiende a tener un efecto de "cuadratura" en los errores en relación con la puntuación F. Así, la puntuación F tiende a medir algo más cercano al rendimiento medio, mientras que la puntuación IoU mide algo más cercano al peor caso de rendimiento.

Supongamos, por ejemplo, que la gran mayoría de las inferencias son moderadamente mejores con el clasificador A que con el B, pero algunas de ellas son significativamente peores utilizando el clasificador A. Puede darse el caso entonces de que la métrica F favorezca al clasificador A mientras que la métrica IoU favorezca al clasificador B.

Sin duda, ambas métricas son mucho más parecidas que diferentes. Pero ambas adolecen de otra desventaja desde el punto de vista de la toma de medias de estas puntuaciones sobre muchas inferencias: ambas exageran la importancia de los conjuntos con poco o ningún conjunto positivo de verdad. En el ejemplo común de la segmentación de imágenes, si una imagen sólo tiene un único píxel de alguna clase detectable, y el clasificador detecta ese píxel y otro más, su puntuación F es un escaso 2/3 y el IoU es aún peor, 1/2. Errores triviales como estos pueden dominar seriamente la puntuación media obtenida sobre un conjunto de imágenes. En resumen, pondera el error de cada píxel de forma inversamente proporcional al tamaño del conjunto seleccionado/relevante en lugar de tratarlos por igual.

Existe una métrica mucho más sencilla que evita este problema. Basta con utilizar el error total: FN + FP (por ejemplo, el 5% de los píxeles de la imagen fueron clasificados erróneamente). En el caso de que uno sea más importante que el otro, se puede utilizar una media ponderada: $c_0$ FP + $c_1$ FN.

2 votos

Willem, no podría haber pedido una respuesta mejor. muchas gracias por tomarte tu tiempo.

12 votos

Probé tu enfoque de error total y sólo quería añadir que no funciona bien con desequilibrios constantes entre positivos y negativos. Imaginemos un conjunto de datos de imágenes en el que sólo un píxel constituye la segmentación verdadera. Las redes neuronales podrían aprender bastante rápido que una predicción vacía es siempre un 99,9% exacta utilizando el error total. Si utilizamos IoU o DSC, presionamos a la red para que encuentre una segmentación por las mismas razones mencionadas anteriormente. Así que, al final, depende mucho del problema.

5 votos

¿Puede alguien ayudarme a conciliar las dos afirmaciones siguientes?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric." y 2: "It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."

7voto

x3ro Puntos 12721

Sí, efectivamente representan cosas distintas y tienen un significado diferente al ver las fórmulas. Sin embargo, cuando se utilizan como medida de evaluación para comparar el rendimiento de diferentes modelos, sólo es necesario elegir uno de ellos.

La razón puede explicarse con las siguientes pruebas:

En primer lugar, dejemos que $$ a = TP,\quad b=TP+FP+TN $$

Entonces, tenemos $$ IoU = \frac{TP}{TP+FP+TN} = \frac{a}{b} $$ $$ Dice = \frac{TP+TP}{TP+TP+FP+TN} = \frac{2a}{a+b} $$

Por lo tanto, $$ Dice = \frac{\frac{2a}{b}}{\frac{a+b}{b}}= \frac{2 \cdot \frac{a}{b}}{\frac{a}{b}+1} = \frac{2 \cdot IoU}{IoU + 1} $$

Teniendo en cuenta el gráfico de líneas de $y=2x/(x+1)$ en el rango de [0,1], descubrimos que Dice tiene una relación monótona creciente con IoU. Entonces no se dará la siguiente situación: $Dice_1 < Dice_2$ mientras que $IoU_1 > IoU_2$ (el subíndice representa un modelo diferente). Es decir, la puntuación de los dados no es más que una representación similar del IoU en sentido numérico. Basta con utilizar uno de ellos para la comparación de modelos.

2voto

ppnk Puntos 1

En cuanto a la respuesta de Nico, me pregunto si IoU no debería ser TP/(TP+FP+). FN ) en lugar de TP/(TP+FP+ TN )? Además, la puntuación de los dados no debería ser (TP+TP)/(TP+TP+FP+ FN )?

0 votos

Bienvenido a CV. Esto no responde realmente a la pregunta. Por favor, envíe una nueva pregunta (y haga referencia a esta pregunta si es necesario) cuando se encuentre en esta situación. De este modo, el sitio funciona mejor y aumentan las posibilidades de obtener una respuesta. Muchas gracias.

0 votos

Esto no responde a la pregunta. Una vez que tenga suficiente reputación podrá comentar cualquier entrada ; en su lugar, proporcionar respuestas que no requieran aclaraciones por parte del autor de la pregunta . - De Revisión

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X