31 votos

¿Cuáles son los valores correctos para la precisión y la recuperación en casos extremos?

La precisión se define como:

p = true positives / (true positives + false positives)

Es correcto que, como true positives y false positives se aproxima a 0, el aproximaciones de precisión 1?

La misma pregunta para recordar:

r = true positives / (true positives + false negatives)

Actualmente estoy implementando un estadístico de prueba que necesito para calcular estos valores, y a veces sucede que el denominador es 0, y me pregunto qué valor de retorno para este caso.

P. S.: la Excusa inadecuado de la etiqueta, yo quería usar recall, precision y limit, pero no puedo crear nuevas Etiquetas todavía.

21voto

UberAlex Puntos 1854

Dada una matriz de confusión:

  predicted
 ---------
| TP | FN |
 ---------   actual
| FP | TN |
 ---------
 

lo sabemos:

 Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
 

Vamos a considerar los casos en los que el denominador es cero:

  • TP FN = 0: significa que no hubo casos positivos en los datos de entrada
  • TP FP = 0: significa que todos los casos fueron predichas como negativos

13voto

Respuesta es Sí. Los casos extremos no definidas se producen cuando los verdaderos positivos (TP) son 0, ya que está en el denominador de ambos P & R. En este caso,

  • Recall = 1 cuando FN = 0, ya que el 100% de la TP se descubrieron
  • Precisión = 1 cuando PF = 0, ya que no se no se han encontrado resultados falsos

Se trata de una reformulación del comentario de @ MBq.

4voto

palmsey Puntos 3799

Estoy familiarizado con la terminología diferente. Lo que usted llame a la precisión me gustaría valor predictivo positivo (VPP). Y lo de llamar a recordar que yo llamaría la sensibilidad (Sens). :

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

En el caso de la sensibilidad (recordar), si el denominador es cero (como Amro), NO hay casos positivos, por lo que la clasificación no tiene sentido. (Que no se detiene, ya sea TP o FN ser cero, lo que podría resultar en una limitación de la sensibilidad de 1 o 0. Estos puntos son, respectivamente, en la parte superior derecha e inferior de las curvas a la izquierda de la curva de ROC - TPR = 1 y TPR = 0.)

El límite de la VPP es significativa, aunque. Es posible que la prueba de corte para ser tan alto (o bajo) a fin de que todos los casos se prevé como negativo. Este es el origen de la curva ROC. El valor de limitación de la PPV justo antes de que la corte llegue el origen puede ser estimada considerando el segmento final de la curva ROC justo antes de la de origen. (Este puede ser el mejor modelo que el de las curvas ROC son muy ruidosos.)

Por ejemplo, si hay 100 reales positivos y 100 reales negativos y el final segnemt de la curva ROC enfoques de TPR = 0.08, FPR = 0.02, entonces la limitación de PPV sería PPR ~ 0.08*100/(0.08*100 + 0.02*100) = 8/10 = 0.8 yo.e 80% de probabilidad de ser un verdadero positivo.

En la práctica, cada muestra se representa por un segmento de la curva de ROC - horizontal para un real negativo y vertical para un real positivo. Se puede estimar la limitación de PPV por el último segmento antes de el origen, pero que daría un estimado de la limitación de PPV de 1, 0 o 0.5, dependiendo de si la última muestra fue un verdadero positivo, un falso positivo (negativo) o de hecho de una igualdad de TP y FP. Un enfoque de modelado sería mejor, tal vez asumiendo que los datos son binormal - una suposición común, por ejemplo: http://mdm.sagepub.com/content/8/3/197.short

2voto

Senseful Puntos 116

Eso depende de lo que entendemos por "enfoque 0". Si los falsos positivos y falsos negativos ambos se aproximan a cero a un ritmo más rápido que los verdaderos positivos, entonces sí a ambas preguntas. Pero por lo demás, no necesariamente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X