8 votos

Tamaño de la muestra y de la cruz-los métodos de validación de modelos predictivos de regresión de Cox

Tengo una pregunta que me gustaría plantear a la comunidad. Recientemente me han preguntado para realizar análisis estadísticos para un marcador tumoral estudio pronóstico. He utilizado principalmente estas dos referencias a la guía de mi análisis:

  1. McShane LM, et al. Informes de recomendaciones para los marcadores tumorales en estudios de pronósticos (OBSERVACIÓN). J Natl Cancer Inst. 2005 Aug 17; 97(16):1180-4.

  2. Simon RM, et al. Mediante la validación cruzada para evaluar la exactitud de predicción de la supervivencia de riesgo de los clasificadores basados en datos de alta dimensión. Breve Bioinform. 2011; 12(3):203-14. Epub 2011 Feb 15.

He aquí un resumen de estudio y mi análisis a continuación. Aprecio cualquier comentario, sugerencias o críticas.

Estudio de fondo:

Algunos pacientes con cáncer de X experiencia temprana de la recaída después del tratamiento. El pronóstico clínico de puntuación utilizado actualmente por los doctores no hacen un buen trabajo de la predicción de la evolución clínica de estos pacientes. Por lo tanto, sería útil para identificar biológica marcadores pronósticos que aporten un valor añadido por encima y más allá de esta puntuación estándar. El objetivo de este estudio es descubrir un biomarcador.

Métodos de estudio:

Pre-selección de candidatos de los biomarcadores

Doce biomarcadores asociados con el cáncer de X fueron identificados en un estudio anterior. Hemos intentado validar la asociación entre estos 12 candidatos y cáncer de X en una muestra independiente de los pacientes/tumores, se describe a continuación.

Univariante de validación de pre-candidato seleccionado biomarcadores

Los niveles de estos biomarcadores se midieron en un conjunto de 220 pacientes/tumores.

[Nota: he ocultado los datos y los puso a disposición para descarga pública como un *.archivo csv. El archivo tiene las siguientes columnas: "IDENTIFICADOR", un identificador único para cada paciente; "PS", el pronóstico de la puntuación para cada paciente, con 1 lo que indica un buen pronóstico y 2, lo que indica un mal pronóstico; "m1" a "m12", los niveles de cada uno de los marcadores tumorales; "el tiempo", en meses; y "evento", en donde 0 indica que la observación es censurado y 1 indica que el fracaso del tratamiento se produjo.]

Univariable modelos de regresión de Cox con el tiempo a la muerte como la variable dependiente fueron construidos para cada uno de los 12 biomarcadores (n = 220 observaciones, el número de eventos = 91).

    Risk  LCI  UCI pValue
1   0.93 0.86 1.02 0.1088
2   0.93 0.88 0.99 0.0215
3   0.99 0.92 1.05 0.6528
4   0.93 0.87 1.00 0.0468
5   0.93 0.88 0.98 0.0055
6   0.97 0.92 1.01 0.1202
7   0.91 0.83 0.99 0.0297
8   0.98 0.90 1.07 0.6972
9   0.99 0.92 1.06 0.7841
10  1.01 0.91 1.11 0.9149
11  0.96 0.87 1.05 0.3837
12  0.90 0.83 0.97 0.0047

El uso de un umbral de valor de p de 0,05/12 = 0.004, ninguno de los resultados fueron significativos.

El análisis Multivariable

Se decidió ajustar un modelo a los datos mediante la introducción de todos los 12 de biomarcadores a la vez en un paso a paso de regresión de Cox algoritmo que usa diez veces la validación cruzada. Después de la construcción de diez modelos en los diez diferentes conjuntos de entrenamiento, el tiempo-dependiente de curvas ROC fueron construidos para permitir la selección de la óptima puntos de corte para identificar a dos grupos de pacientes, "alta" y "baja" de riesgo. Los puntos de corte que minimiza "1 - TP + FP" fueron seleccionados. Estos diez modelos pidió entonces a hacer predicciones acerca de los pacientes correspondientes en la validación de los grupos. Estos pacientes fueron clasificados en "alta" y "baja" grupos de riesgo y se representan en una sola, validado por cruz de Kaplan-Meier de la curva.

Conclusiones

Los intervalos de confianza de la alta y baja curvas de riesgo significativamente superpuesta, lo que sugiere que los biomarcadores identificados no eran útiles marcadores pronósticos. Nuestro estudio, por tanto, no se ha identificado ningún significativa univariante o multivariante de las asociaciones entre estos marcadores y el pronóstico del paciente.

Preguntas para la comunidad

Me he extendido sobre el análisis de mis datos en la forma correcta?

Si usted hubiera sido el estadístico en este estudio, habría que haber hecho algo diferente?

Antes de realizar la validación de los análisis, el tamaño de la muestra y el poder no se realizaban los cálculos para determinar el número de muestras a incluir y el efecto detectable tamaño. Me gustaría realizar estos análisis para orientar futuros estudios. Alguien puede decirme cómo hacerlo?

Lo que me interesa realmente es si estos biomarcadores de proporcionar información predictiva por encima y más allá de los pronósticos clínicos puntuación. Por lo que entiendo, esto implica que habría que hacer tres modelos diferentes: (1) un modelo con las variables de control, (2) un biomarcador modelo con biomarcadores covariables sólo, y (3) un biomarcador/clínica modelo basado en ambos tipos de variables. Hasta ahora he hecho los modelos 1 (no se muestra arriba; era incapaz de diferenciar entre la alta y la baja de riesgo de los pacientes de nuestra muestra) y 2 (se muestra arriba). Porque 1 y 2 no fueron significativas, de que no tenía el modelo 3. Debo hacerlo de esta manera?

Cualquier comentario adicional sobre analítica inquietudes sería muy apreciada! Por favor, siéntase libre de descargar el enmascarado de datos y tener un mismo aspecto.

5voto

dan90266 Puntos 609

Tiene muy bien descrito el problema y ha fijado bien en un número de maneras. No estaba claro en la definición de "puntuación pronóstica", pero es muy poco probable que un 2-nivel de puntuación es clínicamente útil. Es importante ajustar para que la presentación de todos los disponibles de las variables clínicas, basado en la opinión de los expertos a la hora de elegirlos. Aquí están algunas oportunidades de mejora:

  1. 10-fold cross-validation es inestable y necesita ser repetido 100 veces para obtener una adecuada precisión (o el uso de la Efron-Gong optimismo bootstrap con 400 remuestrea; ambas están disponibles en el R rms paquete)
  2. Dividir la señal en "buenos" y "malos", impulsado por curvas ROC es una técnica muy popular, pero no se basaba en ningún buena principios de la estadística. Cualquier biomarcador que se precie debe tener una relación dosis-respuesta, y la división en dos grupos arbitrarios que es innecesario, engañosa de la información y - y power-perder.
  3. Curvas ROC no tienen absolutamente nada que ofrecer en este contexto
  4. La elección de los puntos de corte en la determinación de los biomarcadores es una estadística de desastres. Entre otras cosas, al no reconocer que, matemáticamente, si alguno de los puntos de corte son útiles sólo puede ser en la parte final, no en la covariable final, porque el caso para cada marcador depende del valor absoluto de todos los otros marcador de valores para un paciente.
  5. De regresión paso a paso sin la penalización no es confiable. En su configuración no hay ninguna razón para no poner todos los marcadores en un solo modelo y hacer un cociente de probabilidad $\chi^2$ de prueba para probar el valor que agregan a las variables clínicas.
  6. Una buena alternativa a 5. es hacer un análisis de redundancia o de la variable de agrupación de los biomarcadores para reducir su número antes de ponerlos en relación con el resultado.
  7. Si el tamaño de la muestra eran más grandes que usted podría permitir que todas las variables a introducir en el modelo no lineal utilizando la regresión de splines. Ocasionalmente, permitiendo un biomarcador para ser suave y no lineal duplica su valor a lo largo obligando a la linealidad.
  8. Permite el registro de probabilidad, que es un óptimo regla de puntuación (verosimilitud penalizada sería aún mejor) hacer su trabajo. No pierda tiempo inadecuado exactitud reglas de puntuación.
  9. Considere la posibilidad de usar el "índice de adecuación", basado en el registro de probabilidad, para la descripción de la utilidad de los biomarcadores, como se describe en mi libro de Regresión Estrategias de Modelado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X