Me he encontrado con el Coeficiente de dados por similitud de volumen y precisión . Me parece que estas dos medidas son iguales. ¿Es cierto?
Respuestas
¿Demasiados anuncios?En Coeficiente de dados (también conocido como índice de similitud de Dice) es el mismo que el Puntuación F1 pero no es lo mismo que precisión. La principal diferencia podría ser el hecho de que la precisión tiene en cuenta los verdaderos negativos, mientras que el coeficiente Dice y muchas otras medidas se limitan a tratar los verdaderos negativos como valores por defecto sin interés (véase Aspectos básicos de la evaluación de clasificadores, Parte 1 ).
Hasta donde yo sé, el coeficiente Dice no se calcula como se describe en un respuesta anterior que contiene la fórmula de la Índice de Jaccard (también conocido como "intersección sobre unión" en visión por ordenador).
$$ \begin{align*} \text{Dice}(A,B) &= \frac{2|A\cdot B|}{ |A| + |B| } \\ F1(A,B) &= \frac{2}{|A|/|A \cdot B| + |B|/|A\cdot B|} \\ \text{Jaccard}(A,B) &= \frac{|A\cdot B|}{|\max(A,B)|} = \frac{|A\cdot B|}{|A|+|B|-|A\cdot B|}\\ \text{Accuracy}(A,B) &= \frac{|A\cdot B|+|\overline{A} \cdot \overline{B}|}{|\text{All}|} \\ \end{align*} $$
Dónde $A,B$ vectores binarios (con valores de 1 para elementos dentro de un grupo y 0 en caso contrario), uno significa la verdad básica y el otro el resultado de la clasificación, y $All$ es simplemente todos los elementos considerados (un vector binario de 1's de la misma longitud). Por ejemplo, $ |A \cdot B|$ (producto interior de $A$ y $B$ ) es el número de verdaderos positivos, $ |\overline{A} \cdot \overline{B}|$ (producto interior del complemento de $A$ y el complemento de $B$ ) es el número de verdaderos negativos.
El coeficiente de Dice y el índice de Jaccard están relacionados monotónicamente, y el índice de Tversky los generaliza a ambos, para leer más sobre ello consulte Puntuaciones F, Dados y similitud de conjuntos de Jaccard .
El coeficiente Dice es también la media armónica de Sensibilidad y Precisión, para ver por qué tiene sentido, lea ¿Por qué la medida F es una media armónica y no una media aritmética de las medidas Precision y Recall? .
Para saber más sobre muchos de los términos de esta respuesta y sus relaciones, consulte Evaluación de clasificadores binarios .
No son lo mismo y a menudo se utilizan en contextos diferentes. La puntuación Dice suele utilizarse para cuantificar el rendimiento de segmentación de imágenes métodos. En ellos, se anota una región de la imagen que sea verdadera y, a continuación, se crea un algoritmo automatizado para hacerlo. El algoritmo se valida calculando la puntuación Dice, que es una medida de la similitud de los objetos. Es el tamaño del solapamiento de las dos segmentaciones dividido por el tamaño total de los dos objetos. Utilizando los mismos términos que para describir la precisión, la puntuación Dice es: $$ \text{Dice score} = \frac{2\cdot \text{number of true positives}}{2 \cdot \text{number of true positives + number of false positives + number of false negatives}} $$ Por tanto, el número de verdaderos positivos es el número que encuentra el método, el número de positivos es el número total de positivos que se pueden encontrar y el número de falsos positivos es el número de puntos negativos que el método clasifica como positivos.
La puntuación Dice no es sólo una medida de cuántos positivos se encuentran, sino que también penaliza por los falsos positivos que el método encuentra, de forma similar a la precisión. por lo que es más similar a la precisión que a la exactitud. La única diferencia es el denominador, donde se tiene el número total de positivos en lugar de sólo los positivos que encuentra el método. Así que la puntuación Dice también penaliza por los positivos que su algoritmo/método no pudo encontrar.
Edita: En el caso de la segmentación de imágenes, digamos que se tiene una máscara con la verdad fundamental, llamemos a la máscara $A$ como sugieres. Así que la máscara tiene valores 1 en los píxeles donde hay algo que usted está tratando de encontrar y si no cero. Ahora tienes un algoritmo para generar imagen/máscara $B$ que también tiene que ser una imagen binaria, es decir, creamos una máscara para su segmentación. Entonces tenemos lo siguiente:
- Número de positivos es el número total de píxeles que tienen intensidad 1 en la imagen $A$
- Número de verdaderos positivos es el número total de píxeles que tienen el valor 1 en ambos $A$ y $B$ . Entonces es la intersección de las regiones de unos en $A$ y $B$ . Es lo mismo que utilizar el operador AND en $A$ y $B$ .
- Número de falsos positivos es el número de píxeles que aparecen como 1 en $B$ pero cero en $A$ .
Si lo hace para una publicación, escriba Dice con D mayúscula, porque se llama así por un tipo llamado Dice.
EDITAR: Respecto al comentario sobre una corrección: Yo no uso la fórmula tradicional para calcular el coeficiente Dice, pero si lo traduzco a la notación en la otra respuesta se convierte en:
$$ \text{Dice score} = \frac{2\cdot|A\cap B|}{2\cdot|A\cap B| + |B\backslash A| + |A\backslash B|} = \frac{2\cdot|A\cap B|}{|A| + |B|} $$
Lo que equivale a la definición tradicional. Es más conveniente escribirlo como lo escribí originalmente para enunciar la fórmula en términos de falsos positivos. La barra invertida es el menos del conjunto.
El coeficiente Dice (también conocido como coeficiente Sørensen-Dice y puntuación F1) se define como dos veces el área de la intersección de A y B, dividido por la suma de las áreas de A y B: Dados = 2 |A∩B| / (|A|+|B|) = 2 TP / (2 TP + FP + FN) (TP=Verdaderos Positivos, FP=Falsos Positivos, FN=Falsos Negativos) La puntuación en dados es una métrica de rendimiento para problemas de segmentación de imágenes. Es diferente de la precisión, en la que el objetivo es hacer coincidir los valores, a diferencia de los dados, que hacen coincidir el valor + la posición.