23 votos

¿Cuántos datos faltantes son demasiados? Imputación múltiple (MICE) y R

Actualmente estoy trabajando en un gran conjunto de datos con más de 200 variables (238 para ser exactos) y 290 observaciones para cada variable (en teoría). A este conjunto de datos le faltan bastantes valores, con variables que oscilan entre el 0 y el 100%. Al final voy a realizar una regresión logística con estos datos, así que de mis 238 columnas sólo voy a utilizar diez, más o menos.

Sin embargo, como a casi todas mis columnas les faltan datos, estoy recurriendo a la imputación múltiple para rellenar los espacios en blanco (utilizando el paquete MICE).

Mi pregunta es: dado que tengo una gran cantidad de variación en los datos que faltan, ¿a partir de qué porcentaje de datos que faltan debería empezar a excluir variables de la función mice()?

¿Pueden los ratones funcionar bien con variables a las que les falta el 50% de sus valores? ¿Y con un 60%, 70%, 80%, 90%?

18voto

EdM Puntos 5716

En principio, la MICE debería ser capaz de manejar grandes cantidades de datos ausentes. Se esperaría que las variables con muchos puntos de datos perdidos terminaran con términos de error más grandes que aquellas con menos puntos de datos perdidos, por lo que su capacidad para detectar relaciones significativas con esas variables se vería limitada en consecuencia. Esa es una ventaja de tener múltiples imputaciones y analizar los resultados de todas las imputaciones.

Más importante que un "límite" para los datos que faltan es considerar cuidadosamente (1) el uso previsto de su modelo y (2) si los supuestos de "falta al azar" necesarios para la imputación múltiple se cumplen en su caso.

En cuanto a (1), si, por ejemplo, pretende utilizar el modelo para la predicción, pero algunas variables son intrínsecamente difíciles de obtener, entonces no tiene sentido incluirlas en el modelo. Además, debe utilizar sus conocimientos sobre el tema para considerar las variables que debe incluir. Si sospecha que sólo 10 o más serán importantes basándose en dicho conocimiento, tal vez debería utilizar sólo esas 10.

En términos de (2), si la probabilidad de que falten datos para una variable depende del valor real de la variable, entonces la imputación múltiple es inadecuada.

4voto

Idin K Puntos 55

Los ratones pueden manejar una gran cantidad de datos que faltan. Especialmente si hay muchas columnas con pocos datos perdidos, una con el 80% no supone ningún problema. También se puede esperar que en la mayoría de los casos añadir esta variable conduzca a mejores resultados de imputación que dejarla fuera. ( porque hay más información / correlaciones disponibles que ayudan a estimar las otras variables)

Pero..: La dura verdad es que nunca sabrás con certeza, cuán buena es la imputación de todos modos. Debido a que los valores reales son bien ... "perdidos"

Si tuviera varias opciones de imputación entre las que elegir, elegiría la que condujera a los mejores resultados para el modelo de predicción.

2voto

Esta no es una pregunta de codificación pero si quieres una respuesta aquí está...

Los datos que faltan son muy complicados. No existe un valor porcentual para aceptar o descartar tus variables. La varianza de su variable es lo que es importante observar antes de la imputación de datos.

Si no quiere dedicar tiempo a revisar toda la estadística que hay detrás de los valores perdidos, simplemente tome las variables con menos valores perdidos.

Si se toma la molestia de leer el manual de la MICE, encontrará información básica que le ayudará a imputar correctamente.

La falta de datos no es una tarea sencilla, hay que saber lo que se hace. De lo contrario, se introducirán sesgos.

2voto

Rajesh_Sharma Puntos 17

(Todavía no puedo comentar - ¡lo siento! Me hubiera gustado comentar la respuesta de Joel).

Quiero señalar que, en mi opinión, la calidad del algoritmo de imputación influye en la cantidad de datos que pueden imputarse válidamente.

Si el método de imputación es deficiente (es decir, predice los valores que faltan de forma sesgada), no importa que falte sólo el 5% o el 10% de los datos: seguirá arrojando resultados sesgados (aunque quizá de forma tolerable). Cuantos más datos falten, más dependerá de la validez de su algoritmo de imputación. Por ejemplo, si está imputando el 80% de sus datos, creo que debería estar muy seguro de que los está imputando bien; de lo contrario, podría introducir un sesgo considerable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X