4 votos

¿Qué prueba debo utilizar para validar el uso de una determinada puntuación para predecir mi resultado en un análisis de supervivencia?

Valido el uso de una puntuación clínica cardiovascular para predecir el riesgo de demencia utilizando datos de un estudio longitudinal. Por lo tanto, mi resultado es binario (demencia sí o no) y la variable independiente (la puntuación) es continua, por supuesto tengo todo un conjunto de covariables.

Hice un análisis de Cox para evaluar una asociación entre los valores de referencia y el resultado a lo largo del tiempo, pero ahora me gustaría validar el uso de la puntuación. He pensado en tomar una submuestra aleatoria de mi cohorte para dividirla en entrenamiento y prueba y ejecutar algún tipo de estadística de validación (es decir, curvas ROC), pero tengo algunas dudas sobre esto por una serie de razones:

  • Mi muestra es relativamente pequeña ( $n=2500$ ), y me temo que tomar una submuestra reduciría demasiado la potencia.
  • No estoy seguro de que el ROC (o alternativamente el somerset) sean las mejores pruebas en este caso, ya que otras pruebas (como las utilizadas en la evaluación de cribados) pueden ser más adecuadas.

¿Cómo debo evaluar el uso de esta puntuación? ¿Puede sugerir pruebas que se adapten mejor al problema?

Para el análisis de datos utilizo Stata.

0voto

MeesterTeem Puntos 35

Así que básicamente quiere hacer una validación cruzada de su conjunto de datos.

Un tipo de CV es el método Holdout, que divide los datos en dos partes: Dtest y Dtrain. El modelo predice los valores de Dtest (x → y) y, dado que conocemos los valores reales, es decir, qué valor x corresponde a qué valor y, podemos comparar los valores predichos y los reales y estimar el rendimiento. La submuestra es bastante arbitraria Dtrain/Dtest: 70/30.

Pero tu preocupación por dividir tu conjunto de datos en subconjuntos es válida. ¿Por qué? Porque cuando los datos se dividen en subconjuntos con un conjunto de datos que es bastante pequeño, en tu caso N=2500, hay muchas más posibilidades de que Dtest y Dtrain sean diferentes entre sí.

Podemos resolverlo utilizando una CV k-plegada. La validación cruzada k-folded divide el conjunto de datos en varias partes. Una de las partes se utilizará como datos de prueba y el resto (k-1 partes) se utilizará como datos de entrenamiento. El modelo se itera (más o menos) a través de cada subparte y se obtiene una tasa de error para cada iteración. La tasa de error media se utilizará como valor de rendimiento. Esto resuelve el problema de tener subpartes de los datos que no son representativas del conjunto de datos.

El problema de utilizar la validación cruzada k-folded es si las subpartes se dividen de forma que se obtenga un modelo que se ajuste demasiado a los datos. Es decir, predice bastante bien el valor de los puntos de datos dados, pero cuando el modelo recibe nuevos datos la tasa de error será alta. Esto suele ocurrir cuando hay pocos datos para empezar. Para evitarlo podemos utilizar la validación cruzada repetida.

Validación cruzada repetida:

  1. Hacer el CV (que dará la tasa de error media (Ê)
  2. Reordenar los datos para dar diferentes subpartes
  3. Repite 1-2

enter image description here

Figura 1. Idea general de la CV.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X