3 votos

¿Tiene sentido imputar el año de nacimiento?

Esta es la pregunta de la etapa de limpieza y preparación de datos para mí. Pido disculpas si la pregunta es básica, pero soy un principiante. Tengo un conjunto de datos de algo menos de 4500 registros. Se trata de una encuesta y year of birth es un campo importante. Ahora 670 registros no tienen esta información. Me inclino a pensar que debería tratar este campo como "desconocido", pero quería hacerle una pregunta: ¿Tiene sentido imputar el año de nacimiento?

¿Quizás también podría indicarme alguna lectura sobre si los datos demográficos pueden o deben ser imputados? Muchas gracias por sus ideas.

10voto

Rodrigo Guedes Puntos 111

Si tiene sentido o no imputar el año de nacimiento y cómo hacerlo implica una serie de consideraciones.

En primer lugar, la imputación probablemente sólo sea razonable si el patrón de falta es completamente aleatorio (MCAR) o falta al azar (MAR). En la sección 25.1 de este documento . Pregúntese con qué tipo de falta se encuentra probablemente. Si cree que hay un mecanismo para la falta que observa, puede que quiera reconsiderar la imputación.

Otra pregunta es si considera el año de nacimiento como una variable categórica o continua. Si cree que debe tratarse de forma continua, puede hacer uso de varios métodos de imputación. La imputación múltiple puede ser uno de los más adecuados. Se ofrece una vista de pájaro aquí .

Si cree que el año de nacimiento debe tratarse de forma categórica, se enfrenta al reto de imputar una variable categórica. Esto se trata en este documento en el que se analizan las ventajas de una serie de procedimientos de imputación para variables categóricas y se ofrecen algunos ejemplos.

La imputación múltiple para las variables continuas y categóricas puede realizarse con la función mi paquete en R.

Así que, para resumir, se puede imputar el año de nacimiento tanto si se quiere tratar de forma continua como categórica. Sin embargo, primero piense si hay una razón por la que esas observaciones pueden faltar. ¿Cree que son MCAR o MAR, o puede imaginar que hay una razón sistémica para que falten? Si es así, ¿es La falta de respuesta que depende de predictores no observados ? Si es así, ¿puede modelar la falta de datos de alguna manera y evitar que esto le sesgue la imputación? ¿Se trata de Falta que depende del propio valor que falta ? En cualquiera de las dos últimas situaciones, es posible que quiera pensar detenidamente en cómo proceder con su análisis y qué conclusiones puede sacar razonablemente de él.

2voto

Web-E Puntos 148

Además de la exhaustiva respuesta de @Deathkill14, eche un vistazo al paquete (y a la aplicación independiente) Amelia II también. Este es otro método basado en R para la imputación múltiple. Las advertencias sobre la falta de datos siguen siendo válidas. Manejará variables continuas o definidas categóricamente de manera similar y es robusto a la no normalidad en las variables independientes. También se puede paralelizar si sus datos son grandes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X