8 votos

En cuanto a la precisión y la recuperación del conjunto de datos de validación muy desequilibrados

Posible duplicado:
Optimización de las curvas de precisión-recuperación en caso de desequilibrio de clases

Construí un modelo de clasificación y lo probé con un conjunto de datos de validación. El conjunto positivo está compuesto por 86 casos y el conjunto negativo por 1256 casos. La matriz de confusión es la siguiente

                     True positive  True negative   precision
   Predict positive    55               338          13.99%
   Predict negative    31               918          96.73%
           Recall      63.95%       73.09%  

La precisión y el recuerdo de este clasificador no son buenos, especialmente para la precisión positiva. Sin embargo, los casos negativos son mucho más numerosos que los positivos. No estoy muy seguro de que, para este tipo de datos desequilibrados, podamos seguir utilizando la precisión y el recuerdo como evaluación del rendimiento, como es habitual.

5voto

LachlanG Puntos 133

Trabajo en la clasificación de textos biomédicos, donde este tipo de situaciones se dan a menudo. Tienes toda la razón: la precisión y la recuperación no son tan informativas para los datos altamente sesgados. Tiendo a utilizar el AUC como mi métrica de rendimiento, ya que no es sensible a la distribución de clases.

1voto

Jasmine D Puntos 1

Podría introducir una función de coste, consistente con su aplicación, con valores para TP, FP, TN, FN y optimizar sus predictores para ello.

0voto

loco41211 Puntos 119

Creo que tienes que ser más claro en lo que quieres decir cuando dices "No son válidas": en el sentido de que resumen la tabla de contingencia, son válidas, pero están sesgadas en el caso de datos muy desequilibrados. Una medida alternativa que puedes mirar, que tiende a ser más estable a través del equilibrio de clases, es la media de la tasa de verdaderos positivos y (1 - tasa de falsos positivos).

Sin embargo, hay que tener cuidado con lo que se quiere hacer con esto: la precisión en la clase positiva es una métrica útil, porque la optimización de la relación memoria/precisión en una clase que ocurre con poca frecuencia es a menudo el objetivo de la aplicación práctica de los clasificadores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X