22 votos

Ajuste de covariables en el análisis de la curva ROC

Esta pregunta se refiere a la estimación de las puntuaciones de corte en un cuestionario de cribado multidimensional para predecir un punto final binario, en presencia de escalas correlacionadas.

Me preguntaron sobre el interés de controlar las subpuntuaciones asociadas al idear puntuaciones de corte en cada dimensión de una escala de medición (rasgos de personalidad) que podría utilizarse para el cribado del alcoholismo. Es decir, en este caso concreto, la persona no estaba interesada en ajustar sobre covariables externas (predictores) -lo que conduce a un área (parcial) bajo la curva ROC ajustada por covariables, por ejemplo (1-2)- sino esencialmente sobre otras puntuaciones del mismo cuestionario porque se correlacionan unas con otras (por ejemplo, "impulsividad" con "búsqueda de sensaciones"). Se trata de construir un MLG que incluya en el lado izquierdo la puntuación de interés (para la que buscamos un punto de corte) y otra puntuación calculada a partir del mismo cuestionario, mientras que en el lado derecho el resultado puede ser el estado de consumo de alcohol.

Para aclarar (por petición de @robin), supongamos que tenemos $j=4$ resultados, digamos $x_j$ (por ejemplo, ansiedad, impulsividad, neuroticismo, búsqueda de sensaciones), y queremos encontrar un valor de corte $t_j$ (es decir, "caso positivo" si $x_j>t_j$ y "caso negativo" en caso contrario) para cada uno de ellos. Normalmente ajustamos otros factores de riesgo, como el sexo o la edad, a la hora de establecer ese punto de corte (mediante el análisis de la curva ROC). Ahora bien, ¿qué pasa si ajustamos la impulsividad (IMP) en función del sexo, la edad y la búsqueda de sensaciones (SS), ya que se sabe que la SS está correlacionada con la IMP? En otras palabras, tendríamos un valor de corte para la IMP en el que se eliminaría el efecto de la edad, el sexo y el nivel de ansiedad.

Aparte de decir que un corte debe ser lo más sencillo posible, mi respuesta fue

En cuanto a las covariables, recomendaría estimar las AUC con y sin ajuste, sólo para ver si el rendimiento predictivo aumenta. Aquí, sus covariables son simplemente otras subpuntos definidos a partir del mismo instrumento de medición y nunca me he enfrentado a esta situación (normalmente, me ajustar sobre factores de riesgo conocidos, como la edad o el género). [...] Además, dado que usted está interesado en cuestiones de pronóstico (es decir, la eficacia del cuestionario), puede que también le interese también puede estar interesado en estimar el valor predictivo positivo (VPP, probabilidad de que los pacientes con resultados positivos que se clasifican correctamente) clasificado), siempre y cuando se pueda clasificar a los sujetos como "positivos" o "negativos" en función de sus subpuntuación en su cuestionario. No obstante, tenga en cuenta que es necesario conocer la prevalencia de este trastorno para interpretar correctamente el VPP a su vez...

¿Tiene un conocimiento más profundo de esta situación particular, con enlace a los documentos pertinentes cuando sea posible?

Referencias

  1. Janes, H y Pepe, MS (2008). Ajuste de covariables en estudios de marcadores de diagnóstico, cribado o pronóstico: Un viejo concepto en un nuevo escenario . Revista Americana de Epidemiología , 168(1): 89-97.
  2. Janes, H y Pepe, MS (2008). Acomodación de covariables en el análisis ROC . Serie de documentos de trabajo sobre bioestadística de la UW , Documento 322.

7voto

dan90266 Puntos 609

La forma en que has imaginado el análisis no es realmente la forma en que yo sugeriría que empezaras a pensar en ello. En primer lugar, es fácil demostrar que si los puntos de corte debe se utilizan, los límites no se aplican a las características individuales, sino a la probabilidad de predicción global. El límite óptimo para una sola covariable depende de todos los niveles de las demás covariables; no puede ser constante. En segundo lugar, las curvas ROC no desempeñan ningún papel a la hora de cumplir el objetivo de tomar decisiones óptimas para un individual tema.

Para manejar las escalas correlacionadas hay muchas técnicas de reducción de datos que pueden ayudar. Una de ellas es un análisis de redundancia formal en el que cada predictor se predice de forma no lineal a partir de todos los demás predictores, sucesivamente. Esto se implementa en el redun en la función R Hmisc paquete. La agrupación de variables, el análisis de componentes principales y el análisis factorial son otras posibilidades. Pero la parte principal del análisis, en mi opinión, debería ser la construcción de un buen modelo de probabilidad (por ejemplo, un modelo logístico binario).

3voto

alexs77 Puntos 36

El objetivo del artículo de Janes y Pepe sobre las curvas ROC ajustadas por covariantes es permitir una interpretación más flexible de los valores estimados de la curva ROC. Se trata de un método para estratificar las curvas ROC entre grupos específicos de la población de interés. La fracción positiva verdadera estimada (TPF; eq. sensibilidad) y la fracción negativa verdadera (TNF; eq. especificidad) se interpretan como "la probabilidad de un resultado de cribado correcto dado que el estado de la enfermedad es S/N entre los individuos de la misma [lista de variables ajustadas]". A primera vista, parece que lo que se pretende es mejorar la prueba diagnóstica incorporando más marcadores al panel.

Un buen antecedente para entender un poco mejor estos métodos sería leer sobre el modelo de riesgos proporcionales de Cox y consultar el libro de Pepe sobre "La evaluación estadística de las pruebas médicas para la clasificación y ...". Observará que las medidas de fiabilidad del cribado comparten muchas propiedades similares con una curva de supervivencia, pensando en la puntuación ajustada como un tiempo de supervivencia. Al igual que el modelo de Cox permite estratificar la curva de supervivencia, proponen dar medidas de fiabilidad estratificadas.

La razón por la que esto nos importa podría justificarse en el contexto de un modelo de efectos mixtos binarios: supongamos que estamos interesados en predecir el riesgo de convertirnos en adictos a la metanfetamina. El SES tiene un efecto dominante tan obvio en esto que parece insensato evaluar una prueba de diagnóstico, que podría estar basada en comportamientos personales, sin estratificar de alguna manera. Esto se debe a que [sólo hay que rodar con esto], incluso si una persona rica mostrara síntomas maníacos y depresivos, probablemente nunca probaría la metanfetamina. Sin embargo, una persona pobre mostraría un riesgo mucho mayor al tener esos síntomas psicológicos (y una puntuación de riesgo más alta). El análisis burdo del riesgo mostraría un rendimiento muy pobre de tu modelo predictivo porque las mismas diferencias en dos grupos no eran fiables. Sin embargo, si se estratificara (ricos frente a pobres), podría tener una sensibilidad y especificidad del 100% para el mismo marcador de diagnóstico.

El objetivo del ajuste de covariables es considerar homogéneos los distintos grupos debido a la menor prevalencia y la interacción en el modelo de riesgo entre los distintos estratos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X