Actualmente estoy trabajando en un gran conjunto de datos con más de 200 variables (238 para ser exactos) y 290 observaciones para cada variable (en teoría). A este conjunto de datos le faltan bastantes valores, con variables que oscilan entre el 0 y el 100%. Al final voy a realizar una regresión logística con estos datos, así que de mis 238 columnas sólo voy a utilizar diez, más o menos.
Sin embargo, como a casi todas mis columnas les faltan datos, estoy recurriendo a la imputación múltiple para rellenar los espacios en blanco (utilizando el paquete MICE).
Mi pregunta es: dado que tengo una gran cantidad de variación en los datos que faltan, ¿a partir de qué porcentaje de datos que faltan debería empezar a excluir variables de la función mice()?
¿Pueden los ratones funcionar bien con variables a las que les falta el 50% de sus valores? ¿Y con un 60%, 70%, 80%, 90%?