5 votos

Datos que faltan en el GLM

Me he encontrado con el problema de los datos perdidos al hacer GLMs. Estoy utilizando GLMs para hacer predicciones en R. Mi variable dependiente es continua y mis variables independientes son factores. La pregunta que surge es qué hacer con los valores NA en las variables factoriales.

Lo que he estado haciendo en el pasado era hacer un nivel de factor separado para NA y luego combinarlo con otro factor con un coeficiente GLM similar. Pero como he leído, eso puede llevar a resultados sesgados. También lo que me preocupa es, ¿qué pasa si los datos con los valores NA en alguna variable deberían estar todos en realidad en el nivel más bajo o más alto? Entonces descarto información adicional, y hago predicciones demasiado altas o demasiado bajas, ¿verdad?

Una posibilidad que sugirió un colega fue descartar todos los datos con valores NA. Pero así podría perder demasiados datos.

¿Cuál es la forma recomendada de tratar los datos que faltan en este caso? He leído sobre la imputación, pero me parece que eso me va a llevar a hacer significativas algunas variables cuando no lo son (ya estoy agrupando manualmente las similares).

6voto

Bruce ONeel Puntos 391

Depende mucho de las razones por las que faltan datos. Existen tres mecanismos de omisión comúnmente citados: omisión completamente aleatoria (MCAR), omisión aleatoria (MAR) y omisión no aleatoria (MNAR).

MCAR significa que los valores perdidos ocurren aleatoriamente en esa variable sin ninguna dependencia de cualquier otra variable, observada o no.

MAR significa que los valores que faltan se producen aleatoriamente en esa variable, pero la probabilidad de que falten depende de los valores de una o más variables observadas (que podrían incluir su variable de resultado).

Si la falta de datos depende de variables no observadas, entonces los datos son faltantes no al azar (MNAR).

Eliminar las observaciones con datos perdidos (lo que se conoce como análisis de casos completos o eliminación de la lista) es, como mínimo, una mala idea porque descarta información que da lugar a errores estándar más grandes, intervalos de confianza más amplios y pérdida de potencia. Con el MCAR las estimaciones serán insesgadas, pero con el MAR pueden estar sesgadas:

El análisis de casos completos limita la atención a los casos en los que están presentes todas las variables. Las ventajas de este enfoque son .... . Las desventajas se derivan de la posible pérdida de información al descartar los casos incompletos. Esta pérdida de información tiene dos aspectos: pérdida de precisión y sesgo cuando el mecanismo de datos perdidos no es MCAR y los casos completos no son una muestra aleatoria de todos los casos".

De: Statistical Analysis with Missing Data, Second Edition, Roderick J.A. Little & Donald B Rubin, John Wiley and Sons, 2002. p41: http://dx.doi.org/10.1002/9781119013563

La creación de un factor/indicador/variable ficticia para la ausencia de datos también es un método sesgado, por ejemplo, véase:

White IR, Carlin JB. Bias and efficiency of multiple imputation compared with análisis de caso completo para los valores de covariable faltantes. Stat Med 2010;29:2920-31. http://dx.doi.org/10.1002/sim.3944

Jones MP. Indicador y métodos de estratificación para las variables explicativas que faltan en la regresión lineal múltiple. J Am Stat Assoc 1996;91:222-30. http://dx.doi.org/10.1080/01621459.1996.10476680

Si los datos son plausiblemente MAR o MCAR, la imputación múltiple producirá estimaciones insesgadas si se aplica correctamente y los errores estándar serán menores que con el análisis de casos completos. Si la falta de datos depende de variables no observadas, entonces los datos son faltantes no aleatorios (MNAR) y esto es mucho más difícil de manejar.

La imputación múltiple funciona rellenando los valores que faltan con valores plausibles de un modelo. Esto se hace varias veces y cada vez los valores imputados serán diferentes para permitir la incertidumbre. El modelo de análisis se ejecuta en cada conjunto de datos imputados y los resultados se agrupan. En esencia, el método funciona porque, por un lado, aunque es posible estimar los valores más probables para los datos que faltan, es poco probable que los valores más probables sean los correctos: hay una incertidumbre inherente. La variabilidad de los valores que se imputan entre cada conjunto de datos completado proporciona la incertidumbre necesaria para reflejar la incertidumbre creada por los valores que faltan.

MICE es un excelente paquete para R que implementa la imputación múltiple. https://www.jstatsoft.org/index.php/jss/article/view/v045i03/v45i03.pdf

Actualización: Ejemplos de cómo manejar los valores perdidos en r utilizando los métodos de imputación y MICE paquetes: https://uvastatlab.github.io/2019/05/01/getting-started-with-multiple-imputation-in-r/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X