Hace poco tuve que elegir una métrica para evaluar los algoritmos de clasificación multietiqueta y llegué a este tema, que fue realmente útil. Aquí hay algunas adiciones a la respuesta de stpk, que fueron útiles para hacer una elección.
- MAPA puede adaptarse a los problemas de etiquetas múltiples, a costa de una aproximación
- MAPA no necesita calcularse en k, pero la versión multietiqueta podría no adaptarse cuando la clase negativa es preponderante
- MAPA y (N)DCG pueden reescribirse como la media ponderada de los valores de relevancia clasificados
Detalles
Centrémonos en la precisión media (AP), ya que la precisión media (MAP) no es más que una media de AP en varias consultas. La AP se define correctamente en datos binarios como el área bajo la curva de precisión-recuerdo, que puede reescribirse como la media de las precisiones en cada elemento positivo. (véase el artículo de la wikipedia sobre el MAP ) Una posible aproximación es definirla como la media de las precisiones a cada artículo. Lamentablemente, perdemos la agradable propiedad de que los ejemplos negativos clasificados al final de la lista no tienen ningún impacto en el valor de AP. (Esto es especialmente triste cuando se trata de evaluar un motor de búsqueda, con muchos más ejemplos negativos que positivos. Una posible solución es submuestrear los ejemplos negativos, a costa de otros inconvenientes, por ejemplo, las consultas con más elementos positivos serán igual de difíciles que las consultas con pocos ejemplos positivos).
Por otra parte, esta aproximación tiene la agradable propiedad de que se generaliza bien al caso de las etiquetas múltiples. De hecho, en el caso binario, la precisión en la posición k también puede interpretarse como la relevancia media antes de la posición k, donde la relevancia de un ejemplo positivo es 1, y la relevancia de un ejemplo negativo es 0. Esta definición se extiende de forma bastante natural al caso en el que hay más de dos niveles diferentes de relevancia. En este caso, AP también puede definirse como la media de los promedios de las relevancias en cada posición.
Esta expresión es la elegida por el orador del video citado por stpk en su respuesta. Él muestra en este video que el PA puede ser reescrito como una media ponderada de las relevancias, el peso de la $k$ -ésimo elemento de la clasificación siendo
$$w_k^{AP} = \frac{1}{K}\log(\frac{K}{k})$$
donde $K$ es el número de elementos a clasificar. Ahora que tenemos esta expresión, podemos compararla con la DCG. En efecto, la DCG es también una media ponderada de las relevancias clasificadas, siendo los pesos:
$$w_k^{DCG} = \frac{1}{\log(k+1)}$$
De estas dos expresiones podemos deducir que - AP pondera los documentos de 1 a 0. - DCG pondera los documentos independientemente del número total de documentos.
En ambos casos, si hay muchos más ejemplos irrelevantes que relevantes, el peso total del positivo puede ser insignificante. Para AP, una solución es submuestrear las muestras negativas, pero no estoy seguro de cómo elegir la proporción de submuestreo, así como si hacerla depender de la consulta o del número de documentos positivos. Para el DCG, podemos cortarlo en k, pero surgen el mismo tipo de preguntas.
Me gustaría saber más sobre esto, si alguien de aquí ha trabajado en el tema.