32 votos

¿Debo tomar decisiones basadas en medidas de evaluación micropromediadas o macropromediadas?

Realicé una validación cruzada de 10 veces con diferentes algoritmos de clasificación binaria, con el mismo conjunto de datos, y obtuve resultados promediados tanto de Micro como de Macro. Cabe mencionar que se trataba de un problema de clasificación con varias etiquetas.

En mi caso, los verdaderos negativos y los verdaderos positivos se ponderan por igual. Eso significa que predecir correctamente los verdaderos negativos es igual de importante que predecir correctamente los verdaderos positivos.

Las medidas micromediadas son más bajas que las macromediadas. Estos son los resultados de una red neuronal y una máquina de vectores de apoyo:

enter image description here

También realicé una prueba de división porcentual en el mismo conjunto de datos con otro algoritmo. Los resultados fueron:

enter image description here

Preferiría comparar la prueba de la división porcentual con los resultados macroscópicos, pero ¿es eso justo? No creo que los resultados macromediados estén sesgados porque los verdaderos positivos y los verdaderos negativos se ponderan por igual, pero me pregunto si es lo mismo que comparar manzanas con naranjas.

ACTUALIZACIÓN

A partir de los comentarios, mostraré cómo se calculan las medias micro y macro.

Tengo 144 etiquetas (lo mismo que características o atributos) que quiero predecir. Para cada etiqueta se calculan Precisión, Recall y F-Measure.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

Considerando una medida de evaluación binaria B(tp, tn, fp, fn) que se calcula a partir de los verdaderos positivos (tp), los verdaderos negativos (tn), los falsos positivos (fp) y los falsos negativos (fn). Las medias macro y micro de una medida específica pueden calcularse de la siguiente manera:

enter image description here

enter image description here

Utilizando estas fórmulas podemos calcular las medias micro y macro de la siguiente manera:

enter image description here

enter image description here

Así, las medidas micromediadas suman todos los tp, fp y fn (para cada etiqueta), tras lo cual se realiza una nueva evaluación binaria. Las medidas macro-promediadas suman todas las medidas (Precisión, Recall o F-Measure) y se dividen con el número de etiquetas, lo que es más bien una media.

Ahora, la pregunta es ¿cuál usar?

41voto

felipeduque Puntos 105

Si crees que todas las etiquetas tienen más o menos el mismo tamaño (tienen aproximadamente el mismo número de instancias), utiliza cualquiera.

Si crees que hay etiquetas con más instancias que otras y si quieres sesgar tu métrica hacia el más pobladas, utilice micromedia .

Si cree que hay etiquetas con más instancias que otras y si quiere sesgar su métrica hacia el menos pobladas (o al menos no quiere sesgar hacia las más pobladas), utilice macromedia .

Si el micromedia es significativamente más bajo que el de macromedia, significa que tiene algún error grave de clasificación en las etiquetas más pobladas, mientras que sus etiquetas más pequeñas probablemente están correctamente clasificadas. Si el macromedia es significativamente menor que el de la micromedia, significa que sus etiquetas más pequeñas están mal clasificadas, mientras que las más grandes probablemente estén correctamente clasificadas.

Si no estás seguro de lo que debes hacer, sigue con las comparaciones tanto en la micro como en la macro media :)

Este es un buen documento sobre el tema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X