La estimación de la sensibilidad no depende de la proporción de casos o eventos positivos en la muestra.
Considere la siguiente tabla:
Disease+ Disease-
Test+ a b
Test- c d
a
es el número de indivudales con una determinada enfermedad, condición, evento o similar, y que son clasificados como positivos en la prueba (verdaderos positivos). b
es el número de individuos que no tienen la enfermedad, pero que se clasifican como tales (falsos positivos). c
es el número de individuos que tienen la enfermedad, pero que son clasificados como negativos (falsos negativos). d
es el número de individuos que no tienen la enfermedad y que se clasifican como negativos (verdaderos negativos).
El número de individuos de la muestra con la enfermedad es la suma de los verdaderos positivos y los falsos negativos: a+c
. El número de individuos de la muestra sin la enfermedad es la suma de los falsos positivos y los verdaderos negativos: b+d
.
La sensibilidad es el número de verdaderos positivos dividido por la suma de los verdaderos positivos y los falsos negativos: a/(a+c)
.
Como puede ver, la sensibilidad sólo depende de a
y c
por lo que la proporción de positivos en la muestra ( (a+c)/(a+b+c+d)
) no tiene ningún impacto en el cálculo de la sensibilidad.
Así que la primera afirmación de tu pregunta es correcta: la sensibilidad no se ve afectada por el sobremuestreo. La segunda afirmación no es correcta, la estimación de la sensibilidad no depende de la proporción de eventos en su muestra. Sin embargo, la precisión de la sensibilidad estimada depende del número de observaciones con la enfermedad o el evento, por lo que en la estimación de la sensibilidad, cuanto mayor sea el número de observaciones con la enfermedad o el evento, mejor.
Actualización:
Hice una pequeña simulación para ilustrar que la precisión de la estimación mejora a medida que aumenta el número de casos positivos. Supongamos que tenemos una enfermedad que aparece en el 1% de los individuos de una población. Tenemos una prueba con una sensibilidad verdadera pero desconocida del 90%. El objetivo es estimar la sensibilidad. Para ello, disponemos de un método estándar de oro que puede identificar todos los casos. Ahora tomamos una muestra de 1000 individuos seleccionados al azar y aplicamos nuestra prueba y el método del patrón de oro, y luego calculamos la sensibilidad estimada de nuestra prueba. En la simulación siguiente, lo hacemos 100.000 veces y observamos la sensibilidad media estimada, así como el "intervalo de confianza" del 95% de la estimación, es decir, el rango de estimaciones que se producen en el 95% de los ensayos simulados:
set.seed(1) # for reproducibility
n <- rbinom(100000,1000,0.01) # simulating 100000 trials
n <- n[n!=0] # removing trials with no positive cases
p <- rbinom(length(n),n,0.9)/n # simulating estimated sensitivity in each trial
quantile(p, c(0.025, 0.975))
2.5% 97.5%
0.6666667 1.0000000
mean(p)
[1] 0.8999911
Por tanto, la media esperada es de 0,90, lo cual no es sorprendente porque la sensibilidad real es de 0,90. El "intervalo de confianza" es amplio, de 0,67 a 1,0, por lo que hay un grado de incertidumbre relativamente alto en nuestra estimación.
Si ahora suponemos que hacemos un sobremuestreo de algunos grupos que se sabe que tienen una mayor prevalencia de la enfermedad, podríamos obtener una proporción del 10% en nuestra muestra. Intentémoslo en otra simulación:
n <- rbinom(100000,1000,0.1) # simulating 100000 trials
n <- n[n!=0] # removing trials with no positive cases
p <- rbinom(length(n),n,0.9)/n # simulating estimated sensitivity in each trial
quantile(p, c(0.025, 0.975))
2.5% 97.5%
0.8369565 0.9550562
mean(p)
[1] 0.9000495
Como podemos ver, la sensibilidad media estimada sigue siendo de 0,90, pero el "intervalo de confianza" es considerablemente más estrecho, de 0,84 a 0,96. Esto significa que la estimación puntual de la sensibilidad es más probable que se acerque a la sensibilidad real en este caso, simplemente porque tenemos (de media) 10 veces más casos positivos. Además, los intervalos de confianza de la estimación para un ensayo determinado serán mucho más estrechos en este caso.