Tengo medidas repetidas en 2 puntos de tiempo en una muestra de personas. Hay 18.000 personas en el momento 1, y 13.000 en el momento 2 (5.000 perdidos en el seguimiento).
Quiero hacer una regresión de un resultado Y medido en el tiempo 2 (y el resultado no se puede medir en el tiempo 1) sobre un conjunto de predictores X medidos en el tiempo 1. Todas las variables tienen algunos datos perdidos. La mayor parte parece relativamente aleatoria, o la falta de datos parece bien descrita por los datos observados. Sin embargo, la gran mayoría de los datos faltantes en el resultado Y se debe a la pérdida de seguimiento. Utilizaré la imputación múltiple (R::mice) y utilizaré el conjunto de datos completo para imputar los valores de X, pero he recibido dos consejos contradictorios sobre la imputación de Y:
1) Imputar Y a partir de X y V (V = variables auxiliares útiles) en la muestra completa de 18k.
2) No imputar Y en los individuos perdidos durante el seguimiento (y, por tanto, eliminarlos de cualquier modelo de regresión posterior).
Lo primero tiene sentido porque la información es información, así que por qué no usarla toda; pero lo segundo también tiene sentido, de una manera más intuitiva - simplemente parece incorrecto imputar el resultado de 5000 personas basándose en Y ~ X + V, para luego dar la vuelta y estimar Y ~ X.
¿Qué es (más) correcto?
Esta pregunta anterior es útil, pero no aborda directamente la falta de datos debido a la pérdida de seguimiento (aunque quizás la respuesta sea la misma; no lo sé).
0 votos
Esto me parece contradictorio ¿puede explicarlo? "La mayor parte parece relativamente aleatoria, o la falta parece bien descrita por los datos observados".
1 votos
La imputación múltiple y la mayoría de los demás procedimientos de imputación requieren que sus datos estén ausentes al azar (MAR). Sería necesario entender el mecanismo de desgaste en su estudio. Sin embargo, sospecho que en sus estudios de seguimiento, sus valores perdidos probablemente no sean MAR o MCAR.