2 votos

reconstruir una matriz de confusión 2X2 (TP, TN, FP, FN) a partir de la Sensibilidad y la Especificidad

¿Es posible reconstruir una matriz de confusión 2X2 (TP, TN, FP, FN) a partir de la sensibilidad, la especificidad, el valor predictivo positivo y el valor predictivo negativo? También tengo la prevalencia según la prueba de referencia.

Lo ideal sería utilizar sólo Se y SP, ya que todos los estudios informan de ello.

Gracias de antemano

Barrie

2voto

EdM Puntos 5716

Con un número fijo de casos totales N y 4 celdas en la matriz de confusión que necesitan números de casos, es necesario disponer de 3 fuentes de información adicionales diferentes.

Es importante distinguir entre el número de TP, TN, FP y FN casos y la correspondiente tarifas . Reunir esta respuesta sobre lo que puede hacer con True Positive Tarifa (igual que Sensibilidad) y el Falso Positivo Tarifa con esta respuesta a una pregunta relacionada sobre Precisión (también un índice) y Recuperación (igual que la Sensibilidad), muestra lo que se puede hacer sólo con la Especificidad (Verdadero Negativo Tarifa ) y Sensibilidad, que es lo que "idealmente" le gustaría poder hacer.

Como las respuestas anteriores y la Página de Wikipedia sobre la evaluación de clasificadores binarios muestran, con las definiciones estándar el falso negativo tarifa , FNR viene dada simplemente por

FNR \= 1 - Sensibilidad

ya que el denominador en ambas medidas es el número de casos con Condición Positiva ( CP ).

Del mismo modo, los falsos positivos tarifa , FPR viene dada simplemente por

FPR \= 1- Especificidad

ya que el denominador en ambas medidas es el número de casos con Condición Negativa ( CN ).

Es lo más lejos que se puede llegar con sólo Especificidad y Sensibilidad. Como se indica en la página de Wikipedia, estas medidas son independientes de la prevalencia ( CP / N ), que es una tercera fuente de información que puede utilizarse para colocar los números de caso en la matriz de confusión.

Conocer la prevalencia entre el número real de casos, N sería lo mejor, pero si se dispone de una estimación razonable de la prevalencia "según la prueba de referencia", entonces se podría utilizar la prevalencia para obtener valores estimados para CP y CN para cualquier N a continuación, utilice esos números con el tarifas como se ha calculado anteriormente para rellenar la matriz con el número de casos. Puede utilizar esa matriz para calcular todas las demás medidas utilizadas en la clasificación binaria, como la precisión, los valores predictivos positivos y negativos, etc., como se muestra en la página de Wikipedia enlazada anteriormente.

Dicho esto, ninguna de estas medidas es necesariamente una buena forma de evaluar un modelo de clasificación. Esta respuesta ofrece una introducción a esta cuestión, con enlaces a debates más completos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X