34 votos

FPR (tasa de falsos positivos) frente a FDR (tasa de falsos descubrimientos)

La siguiente cita procede del famoso documento de investigación Importancia estadística de los estudios de genoma completo por Storey & Tibshirani (2003):

Por ejemplo, una tasa de falsos positivos del 5% significa que una media del 5% de los rasgos realmente nulos del estudio se llamarán significativos. Una tasa de falsos descubrimientos (FDR) del 5% significa que entre todas las características consideradas significativas, el 5% de ellas son realmente nulas por término medio.

¿Puede alguien explicarme qué significa eso con un simple ejemplo numérico o visual? Me cuesta entender lo que significa. He encontrado varios posts sobre la FDR o la FPR por sí solas, pero no he encontrado ninguno en el que se hiciera una comparación específica.

Estaría especialmente bien que alguien experto en la materia ilustrara las situaciones en las que una es mejor que la otra, o ambas son buenas o malas.

53voto

mkt Puntos 688

Voy a explicar esto de diferentes maneras porque me ayudó a entenderlo.

Pongamos un ejemplo concreto. Usted está haciendo una prueba de una enfermedad en un grupo de personas. Ahora vamos a definir algunos términos. Para cada uno de los siguientes, me refiero a un individuo al que se le ha hecho la prueba:

Verdadero positivo (TP) : Tiene la enfermedad, se ha identificado que tiene la enfermedad

Falso positivo (FP) : No tiene la enfermedad, identificada como tal

Verdadero negativo (TN) : No tiene la enfermedad, se identifica como que no tiene la enfermedad

Falso negativo (FN) : Tiene la enfermedad, se identifica como que no tiene la enfermedad

Visualmente, esto se muestra típicamente usando el matriz de confusión :

enter image description here

El tasa de falsos positivos (FPR) es el número de personas que no tienen la enfermedad pero que son identificadas como tales (todas las PF), dividido por el número total de personas que no tienen la enfermedad (incluye todos los FP y TN).

$$ FPR = \frac{FP}{FP + TN} $$

El tasa de falsos descubrimientos (FDR) es el número de personas que no tienen la enfermedad pero que son identificadas como tales (todas las PF), dividido por el número total de personas identificadas con la enfermedad (incluye todos los FP y TP).

$$ FDR = \frac{FP}{FP + TP} $$


Entonces, la diferencia está en el denominador, es decir, ¿con qué se compara el número de falsos positivos?

El FPR le dice la proporción de todas las personas que no tienen la enfermedad que serán identificadas como tales.

El FDR le dice la proporción de todas las personas identificadas con la enfermedad que no la tienen.

Por lo tanto, ambas son medidas útiles y distintas del fracaso. Dependiendo de la situación y de las proporciones de TP, FP, TN y FN, puede importarle más una que otra.


Pongamos ahora algunos números a esto. Has medido a 100 personas para la enfermedad y obtienes lo siguiente:

Verdaderos positivos (TP) : 12

Falsos positivos (FPs) : 4

Verdaderos negativos (TN) : 76

Falsos negativos (FN) : 8

Para mostrar esto usando la matriz de confusión:

enter image description here

Entonces,

$$ FPR = \frac{FP}{FP + TN} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5\% $$

$$ FDR = \frac{FP}{FP + TP} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25\% $$

En otras palabras,

La FPR le dice que el 5% de las personas que no tenían la enfermedad fueron identificadas como portadoras de la misma. El FDR le dice que el 25% de las personas que fueron identificadas como portadoras de la enfermedad en realidad no tenían la enfermedad.


EDITADO a partir del comentario de @amoeba (también los números del ejemplo anterior):

¿Por qué es tan importante esta distinción? En el artículo que enlazas, Storey y Tibhshirani señalan que había un fuerte enfoque en el FPR (o tasa de error tipo I) en los estudios de genoma completo, y que esto estaba llevando a la gente a hacer inferencias erróneas. Esto se debe a que una vez que se encuentra $n$ resultados significativos al arreglar el FPR, realmente, necesitas considerar cuántos de tus resultados significativos son incorrectos. En el ejemplo anterior, el 25% de los "resultados significativos" habrían sido incorrectos.

[Nota al margen: Wikipedia señala que aunque la FPR es matemáticamente equivalente a la tasa de error de tipo I, se considera conceptualmente distinto porque uno de ellos se suele fijar a priori mientras que el otro se suele utilizar para medir el rendimiento de una prueba a posteriori. Esto es importante, pero no lo discutiré aquí].


Y para completar un poco más:

Obviamente, FPR y FDR no son las únicas métricas relevantes que se pueden calcular con las cuatro cantidades de la matriz de confusión. De las muchas métricas posibles que pueden ser útiles en diferentes contextos Dos de ellas, relativamente comunes, son las que se pueden encontrar:

Tasa de verdaderos positivos (TPR) , también conocido como sensibilidad , es la proporción de personas que padecen la enfermedad y que son identificadas como tales.

$$ TPR = \frac{TP}{TP + FN} $$

Tasa de verdaderos negativos (TNR) , también conocido como especificidad , es la proporción de personas que no tienen la enfermedad que se identifica como tal.

$$ TNR = \frac{TN}{TN + FP} $$

2voto

Mohammadreza Puntos 1964

Debe examinar la tabla en https://en.wikipedia.org/wiki/Confusion_matrix . Tenga en cuenta que el FPR está colocado verticalmente mientras que el FDR está horizontal.

  • La FP sucede si su hipótesis nula es verdadera pero la rechaza
  • FD sucede si predice algo significativo pero no debería

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X