Realicé una validación cruzada de 10 veces con diferentes algoritmos de clasificación binaria, con el mismo conjunto de datos, y obtuve resultados promediados tanto de Micro como de Macro. Cabe mencionar que se trataba de un problema de clasificación con varias etiquetas.
En mi caso, los verdaderos negativos y los verdaderos positivos se ponderan por igual. Eso significa que predecir correctamente los verdaderos negativos es igual de importante que predecir correctamente los verdaderos positivos.
Las medidas micromediadas son más bajas que las macromediadas. Estos son los resultados de una red neuronal y una máquina de vectores de apoyo:
También realicé una prueba de división porcentual en el mismo conjunto de datos con otro algoritmo. Los resultados fueron:
Preferiría comparar la prueba de la división porcentual con los resultados macroscópicos, pero ¿es eso justo? No creo que los resultados macromediados estén sesgados porque los verdaderos positivos y los verdaderos negativos se ponderan por igual, pero me pregunto si es lo mismo que comparar manzanas con naranjas.
ACTUALIZACIÓN
A partir de los comentarios, mostraré cómo se calculan las medias micro y macro.
Tengo 144 etiquetas (lo mismo que características o atributos) que quiero predecir. Para cada etiqueta se calculan Precisión, Recall y F-Measure.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Considerando una medida de evaluación binaria B(tp, tn, fp, fn) que se calcula a partir de los verdaderos positivos (tp), los verdaderos negativos (tn), los falsos positivos (fp) y los falsos negativos (fn). Las medias macro y micro de una medida específica pueden calcularse de la siguiente manera:
Utilizando estas fórmulas podemos calcular las medias micro y macro de la siguiente manera:
Así, las medidas micromediadas suman todos los tp, fp y fn (para cada etiqueta), tras lo cual se realiza una nueva evaluación binaria. Las medidas macro-promediadas suman todas las medidas (Precisión, Recall o F-Measure) y se dividen con el número de etiquetas, lo que es más bien una media.
Ahora, la pregunta es ¿cuál usar?