5 votos

Problemas con los valores perdidos

Tengo un conjunto de datos para un modelo predictivo (predicción de la tasa de supervivencia de algunos animales con determinadas afecciones médicas agudas) con 25 predictores, de los que alrededor del 30% están completos, 3 faltan al 30%, 25% y 20%, y los demás faltan al 5%. Alrededor del 50% de mis datos son casos completos. Soy nuevo en el tratamiento de los valores perdidos, así que tengo un par de preguntas sobre cómo tratarlos:

  1. ¿Qué puedo hacer con la variable a la que le falta el 30% suponiendo que es MAR? ¿Es el 30% demasiado alto para la imputación? ¿Qué tipo de métricas puedo utilizar para tomar la decisión entre la eliminación del predictor, la eliminación de la lista, la imputación u otras opciones?

  2. ¿Cómo debo tratar un predictor al que le falta entre un 20% y un 25% cuando tengo motivos para creer que es MNAR?

  3. Estoy pensando en utilizar la imputación en los predictores restantes con un 5% de omisión. ¿Cómo decido qué métodos de imputación utilizar? ¿Se eligen caso por caso basándose en los predictores individuales? ¿Cómo se imputan los valores categóricos?

  4. ¿Cómo se lleva a cabo la imputación en la práctica? ¿Debería utilizar casos completos o computarlos iterativamente de alguna manera?

  5. ¿La selección de características se realiza antes o después de tratar los valores perdidos?

5voto

EdM Puntos 5716

En general, no es aconsejable desechar información, que es lo que se hace con el análisis de casos completos o descartando predictores.

Una de las ventajas de imputación múltiple en lugar de una imputación única de los datos que faltan es que el resultado incorpora la variabilidad introducida por el proceso de imputación mientras que, en principio, utiliza toda la información disponible. Así pues, los coeficientes asociados a la variable con un 30% de valores perdidos pueden tener errores estándar mayores que los coeficientes de variables con pocos valores perdidos, pero no hay ningún problema. a priori razón para omitir dicha variable. Podría ser peor omitir dicha variable, ya que la información de los casos que tienen valores para esa variable podría mejorar las imputaciones para otras variables. Incluso si por alguna razón no la mantiene como variable predictora, aún puede incluirse como parte del proceso de imputación.

El enlace anterior ofrece una sencilla introducción al proceso de generación y utilización de los conjuntos múltiples de imputaciones. Se extraen las imputaciones de una distribución de probabilidad, se realizan las regresiones en cada uno de los conjuntos de imputación y, a continuación, se agrupan los resultados entre los conjuntos. Con este número de predictores podría ser mejor hacer la imputaciones primero y luego hacer la selección de características si la selección de características es realmente necesaria. Con sólo 25 predictores sería mejor hacer una regresión ridge que mantenga todos los predictores, con la penalización adecuada, y que tienda a tratar juntos los predictores colineales.

En paquete para ratones en R le proporciona las herramientas que necesita. El enfoque de ecuaciones encadenadas facilita el tratamiento de imputaciones de varias variables a la vez. Debe dedicar algún esfuerzo a establecer la estructura de las imputaciones de una manera que tenga sentido basándose en su comprensión de la materia.

Dos advertencias. En primer lugar, si uno de sus predictores es realmente "missing not at random" (MNAR) en el sentido técnico, entonces tendrá que tener especial cuidado y desarrollar un modelo conjunto de la variable de resultado y el predictor. Sin embargo, es posible pensar que los datos son MNAR cuando en realidad podrían ser MAR, como por ejemplo esta pregunta ilustra. MAR sólo requiere "dados los datos observados, [la omisión] no depende de los datos no observados" . Así que considere cuidadosamente si su predictor realmente amenaza con ser MNAR.

En segundo lugar, debe pensar en cómo utilizará este modelo de predicción. Si es probable que en el futuro falten algunos predictores en muchos casos, no sólo que se omitan con frecuencia en el conjunto de datos actual, y se van a hacer predicciones caso por caso, habrá que considerar detenidamente cómo se harán las predicciones en esos casos y si esa variable debe incluirse en el modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X