11 votos

En un estudio longitudinal, ¿debo imputar el resultado Y, medido en el momento 2, para los individuos que se perdieron durante el seguimiento?

Tengo medidas repetidas en 2 puntos de tiempo en una muestra de personas. Hay 18.000 personas en el momento 1, y 13.000 en el momento 2 (5.000 perdidos en el seguimiento).

Quiero hacer una regresión de un resultado Y medido en el tiempo 2 (y el resultado no se puede medir en el tiempo 1) sobre un conjunto de predictores X medidos en el tiempo 1. Todas las variables tienen algunos datos perdidos. La mayor parte parece relativamente aleatoria, o la falta de datos parece bien descrita por los datos observados. Sin embargo, la gran mayoría de los datos faltantes en el resultado Y se debe a la pérdida de seguimiento. Utilizaré la imputación múltiple (R::mice) y utilizaré el conjunto de datos completo para imputar los valores de X, pero he recibido dos consejos contradictorios sobre la imputación de Y:

1) Imputar Y a partir de X y V (V = variables auxiliares útiles) en la muestra completa de 18k.

2) No imputar Y en los individuos perdidos durante el seguimiento (y, por tanto, eliminarlos de cualquier modelo de regresión posterior).

Lo primero tiene sentido porque la información es información, así que por qué no usarla toda; pero lo segundo también tiene sentido, de una manera más intuitiva - simplemente parece incorrecto imputar el resultado de 5000 personas basándose en Y ~ X + V, para luego dar la vuelta y estimar Y ~ X.

¿Qué es (más) correcto?

Esta pregunta anterior es útil, pero no aborda directamente la falta de datos debido a la pérdida de seguimiento (aunque quizás la respuesta sea la misma; no lo sé).

Imputación múltiple de las variables de resultado

0 votos

Esto me parece contradictorio ¿puede explicarlo? "La mayor parte parece relativamente aleatoria, o la falta parece bien descrita por los datos observados".

1 votos

La imputación múltiple y la mayoría de los demás procedimientos de imputación requieren que sus datos estén ausentes al azar (MAR). Sería necesario entender el mecanismo de desgaste en su estudio. Sin embargo, sospecho que en sus estudios de seguimiento, sus valores perdidos probablemente no sean MAR o MCAR.

2voto

Łukasz Bownik Puntos 2170

Creo que se trata de un caso de instrumentación. Quieres una X que falta, no una Y que falta.

Y~X

Sin embargo, X suele faltar o estar mal medido.

X~Z and Z does not impact Y- except through X.

Entonces puedes correr:

 X~Z
 Y~Predicted(X)

Y requieren algún ajuste para los errores estándar.

También es posible que quiera considerar el procedimiento de 2 pasos de Heckmann si tiene mucho desgaste de la muestra. http://en.wikipedia.org/wiki/Heckman_correction

2voto

Matt Brems Puntos 525

Yo diría que ninguna de las dos cosas es la más apropiada.

La imputación generalmente no es apropiada cuando los datos no son MAR o MCAR y los datos raramente ocurren de esa manera. Al imputar los $X$ valores, puede ser una suposición razonable, pero ciertamente no para su $Y$ datos.

La eliminación de todos los datos que faltan en sus datos hace que sus parámetros se vuelvan sesgados (si los datos no son MCAR, véase más arriba) y reduce significativamente la precisión de sus estimaciones. Se trata de un análisis de "caso completo" y es desaconsejable.

Sugeriría revisar los métodos de análisis de supervivencia que existen. Se trata de métodos diseñados para analizar sus datos teniendo en cuenta que algunos de sus $Y$ los resultados no se observan debido a la censura. Hay modelos que lo tienen en cuenta si se puede identificar qué observaciones están censuradas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X