5 votos

Asesoramiento sobre la imputación de valores perdidos

Estoy trabajando con datos de seguros en los que un cliente tiene un campo llamado customer_no_dependent (número de dependiente del cliente). Su salida es una variable significativa( sólo que tiene $p<0.0001$ ).

Esta variable tiene casi un 20% de valores perdidos. Para la imputación, pensé en determinar indicadores indirectos para el número de personas a cargo. Probé con la edad (pensando que una persona de más edad podría tener más dependientes). También lo correlacioné con el importe de la prima para pensar que una persona que tiene más dependientes podría tener menos ingresos disponibles. Así que el pago de una prima baja podría estar significando más dependientes. Entiendo que una variable demográfica no se puede sacar totalmente de esa lógica.

Ahora bien, si alguien entra en detalles, puede demostrar que mi imputación dista mucho de ser perfecta. ¿Qué debo hacer en esa situación? ¿Suprimir ese 20% sería una solución correcta? El 20% para mis datos sería cerca de 2 lakh filas que es gran cantidad de información..

Lo sé, esta pregunta puede tener muchas respuestas posibles. Agradecería cualquier indicación sobre cómo proceder.

5voto

pkaeding Puntos 12935

En primer lugar, no queda claro en su explicación si ha realizado o no una imputación múltiple. Si no es así, por favor, hágalo: la imputación simple podría ser peor que el simple análisis de casos completos, y ambos pueden conducir a resultados muy sesgados.

A continuación, si he entendido bien, su problema es que no sabe qué variables utilizar como covariables para su modelo de imputación. Si el número de covariables posibles (supongo que son las otras covariables de su modelo de interés) es limitado, podría optar por el tipo de imputación no paramétrica que ofrece MICE (en R) y otros algoritmos similares.

Otra opción es utilizar la contracción (LASSO o similar) en un modelo de predicción de cliente_no_dependiente: esto debería darle un conjunto de predictores probables. Sin embargo, tenga en cuenta que este paso induce aún más incertidumbre (vuelve a reutilizar los datos), y debería confiar algo menos en sus intervalos de confianza y valores p. El efecto debería ser insignificante si su asociación es realmente tan fuerte como indica.

Si utiliza el tipo de mecanismo de imputación paramétrico e inducido por el sentido común (como la regresión sobre predictores "creíbles"): simplemente anote este hecho y mencione que los resultados obtenidos están condicionados por este conjunto adicional de supuestos.

3voto

No sé si tienes experiencia en SAS, pero yo he utilizado los SAS PROCs MI y Mianalyze para realizar (y luego sintetizar) múltiples imputaciones en varios modelos diferentes. La construcción del "modelo de imputación" (que produce estimaciones no sesgadas de los datos que faltan, incorporando la incertidumbre que se encuentra en los datos que no faltan) es probablemente la tarea más difícil. El modelo de imputación incluirá todas o la mayoría de las variables de análisis (es decir, los predictores de su modelo de análisis), así como las variables auxiliares, es decir, otras variables que se correlacionan con la variable dependiente, el estado de falta o ambos. (Nota: es posible que desee utilizar p < .15 como primer umbral).

A continuación, se seleccionan parámetros como el número de iteraciones (tanto antes de la primera imputación como entre iteraciones), el método de estimación, el método de muestreo, etc. Por supuesto, antes de todo esto, hay que determinar qué ha llevado a los datos perdidos, y si los datos perdidos son MCAR (perdidos completamente al azar), MAR (perdidos al azar), o MNAR (perdidos no al azar). Explicar esto va más allá del alcance de este foro, pero -si no está familiarizado con estos términos- hay una serie de buenas descripciones a nivel introductorio en la web.

Lo anterior puede llevar bastante tiempo, dependiendo del número de variables candidatas para su modelo de imputación; sin embargo, esto tiene la ventaja de aclarar lo que está impulsando la imputación. También hay una serie de buenas herramientas de diagnóstico que permiten evaluar y comparar diferentes modelos de imputación.

Mplus permite hacer todo esto de forma más rápida; básicamente, modela el estado de falta utilizando la estimación ML. Puede leer más sobre esto en statmodel.com.

Estoy de acuerdo en que la imputación única o la eliminación de todos los casos perdidos no es probablemente el mejor enfoque, dependiendo, por supuesto, de sus preguntas de investigación. Si SAS es un lenguaje disponible y le gustaría hablar de esto con más detalle, por favor publique.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X