Vas por buen camino.
Así que algunas cosas de entrada. A partir de la definición de las dos métricas, tenemos que el IoU y la puntuación F están siempre dentro de un factor de 2 entre sí: $$ F/2 \leq IoU \leq F $$ y también que se encuentran en los extremos del uno y del cero en las condiciones que cabría esperar (coincidencia perfecta y desunión total).
Obsérvese también que la relación entre ellos puede relacionarse explícitamente con el IoU: $$ IoU/F = 1/2 + IoU/2 $$ para que la relación se acerque a 1/2 a medida que ambas métricas se acercan a cero.
Pero hay una afirmación más fuerte que se puede hacer para la aplicación típica de la clasificación a la máquina de aprendizaje. Para cualquier "verdad básica" fija, las dos métricas son siempre correlacionados positivamente. Es decir, si el clasificador A es mejor que el B bajo una métrica, también es mejor que el clasificador B bajo la otra métrica.
Es tentador concluir entonces que las dos métricas son funcionalmente equivalentes, por lo que la elección entre ellas es arbitraria, pero ¡no tan rápido! El problema viene cuando se toma la puntuación media sobre un conjunto de inferencias . Entonces, la diferencia surge al cuantificar cómo mucho peor es el clasificador B que el A para un caso determinado.
En general, la métrica IoU tiende a penalizar cuantitativamente los casos individuales de mala clasificación más que la puntuación F, incluso cuando ambos pueden coincidir en que este caso es malo. De forma similar a cómo L2 puede penalizar los errores más grandes más que L1, la métrica IoU tiende a tener un efecto de "cuadratura" en los errores en relación con la puntuación F. Así, la puntuación F tiende a medir algo más cercano al rendimiento medio, mientras que la puntuación IoU mide algo más cercano al peor caso de rendimiento.
Supongamos, por ejemplo, que la gran mayoría de las inferencias son moderadamente mejores con el clasificador A que con el B, pero algunas de ellas son significativamente peores utilizando el clasificador A. Puede darse el caso entonces de que la métrica F favorezca al clasificador A mientras que la métrica IoU favorezca al clasificador B.
Sin duda, ambas métricas son mucho más parecidas que diferentes. Pero ambas adolecen de otra desventaja desde el punto de vista de la toma de medias de estas puntuaciones sobre muchas inferencias: ambas exageran la importancia de los conjuntos con poco o ningún conjunto positivo de verdad. En el ejemplo común de la segmentación de imágenes, si una imagen sólo tiene un único píxel de alguna clase detectable, y el clasificador detecta ese píxel y otro más, su puntuación F es un escaso 2/3 y el IoU es aún peor, 1/2. Errores triviales como estos pueden dominar seriamente la puntuación media obtenida sobre un conjunto de imágenes. En resumen, pondera el error de cada píxel de forma inversamente proporcional al tamaño del conjunto seleccionado/relevante en lugar de tratarlos por igual.
Existe una métrica mucho más sencilla que evita este problema. Basta con utilizar el error total: FN + FP (por ejemplo, el 5% de los píxeles de la imagen fueron clasificados erróneamente). En el caso de que uno sea más importante que el otro, se puede utilizar una media ponderada: $c_0$ FP + $c_1$ FN.
1 votos
Al parecer, el coeficiente de Jaccard también es el mismo que IoU
0 votos
Me interesaría especialmente si algunas de estas medidas (ahora 4) sólo sirven para datos binarios.
2 votos
Hice algunos gráficos de contorno para IoU y F1 para la comprensión intuitiva inspirado en una de las respuestas anteriores. He publicado mis gráficos en tomkwok.com/posts/iou-vs-f1 .
0 votos
stats.stackexchange.com/a/55802/3277 responde por qué necesitamos ese multiplicador 2 en los dados.
0 votos
@Tom Kwok: Tu enlace no funciona