Depende mucho de las razones por las que faltan datos. Existen tres mecanismos de omisión comúnmente citados: omisión completamente aleatoria (MCAR), omisión aleatoria (MAR) y omisión no aleatoria (MNAR).
MCAR significa que los valores perdidos ocurren aleatoriamente en esa variable sin ninguna dependencia de cualquier otra variable, observada o no.
MAR significa que los valores que faltan se producen aleatoriamente en esa variable, pero la probabilidad de que falten depende de los valores de una o más variables observadas (que podrían incluir su variable de resultado).
Si la falta de datos depende de variables no observadas, entonces los datos son faltantes no al azar (MNAR).
Eliminar las observaciones con datos perdidos (lo que se conoce como análisis de casos completos o eliminación de la lista) es, como mínimo, una mala idea porque descarta información que da lugar a errores estándar más grandes, intervalos de confianza más amplios y pérdida de potencia. Con el MCAR las estimaciones serán insesgadas, pero con el MAR pueden estar sesgadas:
El análisis de casos completos limita la atención a los casos en los que están presentes todas las variables. Las ventajas de este enfoque son .... . Las desventajas se derivan de la posible pérdida de información al descartar los casos incompletos. Esta pérdida de información tiene dos aspectos: pérdida de precisión y sesgo cuando el mecanismo de datos perdidos no es MCAR y los casos completos no son una muestra aleatoria de todos los casos".
De: Statistical Analysis with Missing Data, Second Edition, Roderick J.A. Little & Donald B Rubin, John Wiley and Sons, 2002. p41: http://dx.doi.org/10.1002/9781119013563
La creación de un factor/indicador/variable ficticia para la ausencia de datos también es un método sesgado, por ejemplo, véase:
White IR, Carlin JB. Bias and efficiency of multiple imputation compared with análisis de caso completo para los valores de covariable faltantes. Stat Med 2010;29:2920-31. http://dx.doi.org/10.1002/sim.3944
Jones MP. Indicador y métodos de estratificación para las variables explicativas que faltan en la regresión lineal múltiple. J Am Stat Assoc 1996;91:222-30. http://dx.doi.org/10.1080/01621459.1996.10476680
Si los datos son plausiblemente MAR o MCAR, la imputación múltiple producirá estimaciones insesgadas si se aplica correctamente y los errores estándar serán menores que con el análisis de casos completos. Si la falta de datos depende de variables no observadas, entonces los datos son faltantes no aleatorios (MNAR) y esto es mucho más difícil de manejar.
La imputación múltiple funciona rellenando los valores que faltan con valores plausibles de un modelo. Esto se hace varias veces y cada vez los valores imputados serán diferentes para permitir la incertidumbre. El modelo de análisis se ejecuta en cada conjunto de datos imputados y los resultados se agrupan. En esencia, el método funciona porque, por un lado, aunque es posible estimar los valores más probables para los datos que faltan, es poco probable que los valores más probables sean los correctos: hay una incertidumbre inherente. La variabilidad de los valores que se imputan entre cada conjunto de datos completado proporciona la incertidumbre necesaria para reflejar la incertidumbre creada por los valores que faltan.
MICE
es un excelente paquete para R que implementa la imputación múltiple. https://www.jstatsoft.org/index.php/jss/article/view/v045i03/v45i03.pdf
Actualización: Ejemplos de cómo manejar los valores perdidos en r utilizando los métodos de imputación y MICE
paquetes: https://uvastatlab.github.io/2019/05/01/getting-started-with-multiple-imputation-in-r/