Como parte de un proyecto escolar tengo que evaluar el impacto de la educación preescolar en el rendimiento de los niños en las pruebas académicas (habilidades cognitivas) cuando entran en el jardín de infancia. Me han dado un conjunto de datos con entradas de 17'000 niños, sin embargo, hay algunos problemas con los datos dados: en 1696 casos, no tengo ningún dato sobre su rendimiento en estas pruebas, en algunos casos más el género, el nivel de educación de la madre, el nivel de educación del padre, etc. no se reportan. En total me quedan casi 9000 niños con un conjunto completo de entradas. ¿Cuál es la mejor manera de tratar estos datos? La simple eliminación de estas variables parece violar el supuesto de "muestreo aleatorio", ya que podría haber un sesgo de autoselección. ¿Debería utilizar la imputación múltiple?
Respuesta
¿Demasiados anuncios?Lo mejor que se puede hacer con los datos que faltan es utilizar toda la información de que se disponga.
Se sabe que la eliminación de los casos incompletos, también conocida como eliminación por lista, causa sesgos para todos los tipos de omisión excepto para los datos completamente omitidos al azar (MCAR) (Arbuckle, 1996; Brown, 1994; Wothke, 2000). Los datos MCAR son poco frecuentes en los datos psicológicos y educativos.
Lo mejor que puede hacer es utilizar una técnica de máxima verosimilitud con información completa (FIML) para analizar sus datos. No estoy seguro de qué tipo de análisis tiene previsto realizar, pero debería estudiar las variaciones FIML de dicho análisis. Enders, 2001, Howell, 2007, o Schafer & Graham, 2002 son algunos buenos artículos sobre el uso de diversos métodos para tratar los datos que faltan.
Si no existe una variación FIML de su análisis, la imputación múltiple podría ser la siguiente mejor opción. Lo que realmente hace la imputación múltiple es sustituir cada valor que falta por un conjunto de valores plausibles que representan la incertidumbre sobre el valor correcto a imputar y, a continuación, combina todos los conjuntos de imputación posibles. Muchos investigadores prefieren FIML a la imputación múltiple porque la imputación múltiple en realidad está inventando números para los datos que faltan, y piensan que es mucho más probable que dé estimaciones incorrectas que simplemente utilizar los datos que se tienen como se hace en los enfoques FIML.
Espero que le sirva de ayuda.