En general, no es aconsejable desechar información, que es lo que se hace con el análisis de casos completos o descartando predictores.
Una de las ventajas de imputación múltiple en lugar de una imputación única de los datos que faltan es que el resultado incorpora la variabilidad introducida por el proceso de imputación mientras que, en principio, utiliza toda la información disponible. Así pues, los coeficientes asociados a la variable con un 30% de valores perdidos pueden tener errores estándar mayores que los coeficientes de variables con pocos valores perdidos, pero no hay ningún problema. a priori razón para omitir dicha variable. Podría ser peor omitir dicha variable, ya que la información de los casos que tienen valores para esa variable podría mejorar las imputaciones para otras variables. Incluso si por alguna razón no la mantiene como variable predictora, aún puede incluirse como parte del proceso de imputación.
El enlace anterior ofrece una sencilla introducción al proceso de generación y utilización de los conjuntos múltiples de imputaciones. Se extraen las imputaciones de una distribución de probabilidad, se realizan las regresiones en cada uno de los conjuntos de imputación y, a continuación, se agrupan los resultados entre los conjuntos. Con este número de predictores podría ser mejor hacer la imputaciones primero y luego hacer la selección de características si la selección de características es realmente necesaria. Con sólo 25 predictores sería mejor hacer una regresión ridge que mantenga todos los predictores, con la penalización adecuada, y que tienda a tratar juntos los predictores colineales.
En paquete para ratones en R le proporciona las herramientas que necesita. El enfoque de ecuaciones encadenadas facilita el tratamiento de imputaciones de varias variables a la vez. Debe dedicar algún esfuerzo a establecer la estructura de las imputaciones de una manera que tenga sentido basándose en su comprensión de la materia.
Dos advertencias. En primer lugar, si uno de sus predictores es realmente "missing not at random" (MNAR) en el sentido técnico, entonces tendrá que tener especial cuidado y desarrollar un modelo conjunto de la variable de resultado y el predictor. Sin embargo, es posible pensar que los datos son MNAR cuando en realidad podrían ser MAR, como por ejemplo esta pregunta ilustra. MAR sólo requiere "dados los datos observados, [la omisión] no depende de los datos no observados" . Así que considere cuidadosamente si su predictor realmente amenaza con ser MNAR.
En segundo lugar, debe pensar en cómo utilizará este modelo de predicción. Si es probable que en el futuro falten algunos predictores en muchos casos, no sólo que se omitan con frecuencia en el conjunto de datos actual, y se van a hacer predicciones caso por caso, habrá que considerar detenidamente cómo se harán las predicciones en esos casos y si esa variable debe incluirse en el modelo.