6 votos

Comparar una prueba de diagnóstico estándar de oro

Tengo una muestra de pacientes que se sometieron a 2 pruebas de diagnóstico, uno de los cuales es el estándar de oro. Se me ha pedido para probar si el diagnóstico de la experimental de la prueba es diferente que la del estándar de oro. Aquí está la tabla de contingencia:

> table(test=db$exptest, gold=db$goldstandard)
        gold
test       sick   healthy
  sick        7         4
  healthy     8        27

Al principio pensé que esto era un caso de prueba de McNemar test, pero parece que esta prueba está pensada para comparar 2 experimental de los resultados de la prueba contra el estándar de oro, como se ve aquí, o aquí. Sin embargo, la página de la wiki o de este post no son exclusivos, pero no muy claro para mi caso, aunque.

Debo realizar la prueba de McNemar test en este caso específico? Si no, puedo probar esta hipótesis y cómo?

3voto

mdewey Puntos 579

Si el uso de McNemar test se está probando si la tabla es simétrica: si más personas son diagnosticadas enfermos por el nuevo método, y bien por la edad en comparación con el bien por el nuevo y enfermos por la edad. Esto es perfectamente razonable pregunta científica a tener.Para una situación concreta supongamos que los dos métodos que se comparan son las clasificaciones de los problemas de salud mental por parte de un psiquiatra y un médico de la familia. Ya que ellos ven diferentes de mezcla de casos en su práctica, usted podría preguntar si esto afecta a su umbral para declarar a alguien enfermo.

Si utiliza el índice de kappa de Cohen se evalúa si el acuerdo entre los métodos es más de lo que cabría esperar por azar. Esto, de nuevo, una pregunta perfectamente razonable, pero es diferente. Así que si usted está comparando dos métodos para el diagnóstico de deterioro cognitivo leve en donde no existe un estándar de oro usted puede tratar de un acuerdo entre los métodos de justificar el concepto de MCI y si no están de acuerdo, usted podría preguntarse si se trata de un útil de diagnóstico.

El cálculo de la sensibilidad y la especificidad es el método habitual para las pruebas de diagnóstico y evalúa el rendimiento por separado en los dos grupos: bueno de acuerdo con el estándar de oro y enfermo, de acuerdo con el estándar de oro. De nuevo esto es una cosa razonable para hacer, pero es diferente de los otros dos. En este caso se tienen dos cosas separadas que usted está interesado en y su foco de atención en una situación práctica puede ser en uno o en otro. Por ejemplo, si eres el cribado de una enfermedad mortal que podría querer una prueba con alta sensibilidad, ya que usted no querrá perderse los casos. Por otro lado, si usted está reclutando a un juicio que podría no cuenta que faltan algunos, sino en el costo de los motivos que podría querer una alta especificidad, ya que usted no desea o hacer el diagnóstico completo de trabajo-seguimiento a más personas de lo que es absolutamente esencial.

3voto

Sean Hanley Puntos 2428

Usted está preguntando acerca de un acuerdo, por lo que debe utilizar una prueba para el acuerdo. Con sólo dos medidas de diagnóstico ('evaluadores') que son categóricos en la naturaleza, el estándar de prueba kappa de Cohen. He aquí una versión aplicada a los datos codificados en R:

tab2 = as.data.frame(tab)
kappa2(tab2[rep(1:4, times=tab2[,3]),1:2])
#  Cohen's Kappa for 2 Raters (Weights: unweighted)
# 
#  Subjects = 46 
#    Raters = 2 
#     Kappa = 0.363 
# 
#         z = 2.52 
#   p-value = 0.0118 

La prueba es significativa, lo que implica que hay un mayor acuerdo de lo que cabría esperar por azar.

Usted no tiene que parar allí. Se podría medir el porcentaje de convenir, por ejemplo:
$$ \text {%manifestó} = \frac{7+27}{7+4+8+27} = 73.9\% $$ La sensibilidad y especificidad (o los valores predictivos positivo y negativo) constituyen un tipo similar de información, pero descompuesto y en un mayor nivel de detalle, que puede ser más útil, pero también es más complejo.

También puede probar a ver si la nueva prueba está sesgada en relación con el patrón oro. Específicamente, sus llamadas de prueba sólo se llama a 11 personas enfermas, mientras que el estándar de oro señaló que 15 fueron. Es la nueva prueba diciendo: 'enferma' menos a menudo de lo que debería? Eso es lo que McNemar test de hacer para usted aquí.

mcnemar.test(tab)
# 
#   McNemar's Chi-squared test with continuity correction
# 
# data:  tab
# McNemar's chi-squared = 0.75, df = 1, p-value = 0.3865

No hay evidencia suficiente en el conjunto de datos para determinar que la prueba está sesgada en relación con el patrón oro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X