43 votos

¿Cuáles son las medidas de precisión de los datos multietiqueta?

Considere un escenario en el que se le proporciona la matriz KnownLabel y la matriz PredictedLabel. Me gustaría medir la bondad de la matriz PredictedLabel frente a la matriz KnownLabel.

Pero el reto aquí es que la matriz KnownLabel tiene pocas filas con un solo 1 y otras pocas filas tienen muchos 1's (esas instancias son multietiquetadas). Un ejemplo de matriz KnownLabel se da a continuación.

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

En la matriz anterior, los datos 1 y 2 son datos de una etiqueta, los datos 3 y 4 son datos de dos etiquetas y los datos 5 son datos de tres etiquetas.

Ahora tengo la matriz de PredictedLabel de la instancia de datos utilizando un algoritmo.

Me gustaría conocer varias medidas que se pueden utilizar para medir la bondad de la matriz PredictedLabel frente a la matriz KnownLabel.

Puedo pensar en la diferencia de normas de frobeinus entre ellos como una de las medidas. Pero estoy buscando la medida como la precisión $(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}})$

Aquí cómo podemos definir el $\rm Correctly\_predicted$ para la instancia de datos múltiples?

41voto

Franck Dernoncourt Puntos 2128

(1) ofrece un buen resumen:

enter image description here

enter image description here

El Página de Wikipedia n clasificación multietiqueta contiene también una sección sobre las métricas de evaluación.

Me gustaría añadir una advertencia de que en la configuración de la multietiqueta, la precisión es ambigua: puede referirse a la proporción de coincidencia exacta o a la puntuación de Hamming (véase esto Correo electrónico: ). Desgraciadamente, muchos trabajos utilizan el término "precisión".


(1) Sorower, Mohammad S. " Un estudio de la literatura sobre algoritmos para el aprendizaje multietiqueta. " Universidad Estatal de Oregón, Corvallis (2010).

10voto

A.Schulz Puntos 264

La pérdida de Hamming es probablemente la función de pérdida más utilizada en la clasificación multietiqueta.

Echa un vistazo a Estudios empíricos sobre la clasificación multietiqueta y Clasificación multietiqueta: Una visión general , en los que se habla de esto.

4voto

Correctly Predicted es la intersección entre el conjunto de etiquetas sugeridas y el conjunto esperado. Total Instances es la unión de los conjuntos anteriores (sin recuento de duplicados).

Así que dado un único ejemplo en el que se predicen las clases A, G, E y el caso de prueba tiene E, A, H, P como las correctas se termina con Accuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X