He visto que se utiliza la Imputación Múltiple por Ecuaciones Encadenadas (MICE) como método de tratamiento de los datos que faltan. Alguien puede explicar de forma sencilla cómo funciona MICE?
Respuesta
¿Demasiados anuncios?La MICE es un imputación múltiple Método utilizado para reemplazar los valores de los datos que faltan en un conjunto de datos bajo ciertos supuestos sobre el mecanismo de falta de datos (por ejemplo, los datos faltan al azar, los datos faltan completamente al azar).
Si parte de un conjunto de datos que incluye valores perdidos en una o más de sus variables, puede crear varias copias de este conjunto de datos - por ejemplo, puede crear 5 copias del conjunto de datos original - y reemplazar los valores de datos que faltan en cada copia utilizando el procedimiento MICE. A continuación, puede
- Analice las 5 copias completas del conjunto de datos utilizando el análisis estadístico previsto;
- Combinar (o agrupar) los resultados de estos análisis de datos completos;
- Informe del resultado combinado.
Las reglas para combinar (o agrupar) resultados son específicas de los resultados que se combinan y fueron desarrolladas inicialmente por Rubin.
Figura 1 del artículo Imputación múltiple mediante ecuaciones encadenadas en la práctica: Directrices y revisión de Jesper N. Wulff y Linda Ejlskov resume visualmente el proceso descrito: http://www.ejbrm.com/issue/download.html?idArticle=450 .
¿Cómo sustituye la MICE los valores de datos que faltan en cada copia del conjunto de datos original?
El artículo Imputación múltiple mediante ecuaciones encadenadas: ¿Qué es y cómo funciona? de Azur et al. explica lo que ocurre bajo el capó de la MICE con un bonito ejemplo: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/
En el ejemplo, los artículos del autor parten de un conjunto de datos sencillo que incluye sólo 3 variables: edad, ingresos y sexo. Las 3 tienen al menos algunos valores perdidos.
Para aplicar la MICE, cree 5 copias (digamos) de este sencillo conjunto de datos y repita varias veces los pasos que se indican a continuación para cada copia:
Primer paso: Sustituya (o impute) los valores que faltan en cada variable por valores temporales "marcadores de posición" derivados únicamente de los valores no ausentes disponibles para esa variable. Por ejemplo, sustituya el valor que falta de la edad por el valor medio de la edad observado en los datos, sustituya los valores que faltan de los ingresos por el valor medio de los ingresos observado en los datos, etc.
Paso 2 Devuelve a faltar las imputaciones "place holder" sólo para la variable edad. De este modo, la copia de datos actual contiene valores perdidos para la edad, pero no para los ingresos y el sexo.
Paso 3: Haga una regresión de la edad sobre los ingresos y el sexo mediante un modelo de regresión lineal (aunque también es posible hacer una regresión de la edad sobre una sola de estas variables); para poder ajustar el modelo a la copia de datos actual, elimine todos los registros en los que falte la edad durante el proceso de ajuste del modelo. En este modelo, la edad es la variable dependiente y los ingresos y el sexo son las variables independientes.
Paso 4 Utilice el modelo de regresión ajustado en el paso anterior para predecir los valores de edad que faltan. (Cuando la edad se vaya a utilizar posteriormente como variable independiente en los modelos de regresión para otras variables, se utilizarán tanto los valores observados de la edad como estos valores predichos). El artículo no deja claro que deba añadirse un componente aleatorio a estas predicciones.
Paso 5: Repita los pasos 2 a 4 por separado para cada variable con datos omitidos, es decir, los ingresos y el sexo.
Recorrer los pasos 1-5 una vez para cada una de las variables edad, ingresos y sexo constituye una ciclo . Al final de este ciclo, todos los valores que falten en edad, ingresos y sexo se habrán sustituido por predicciones de modelos de regresión que reflejen las relaciones observadas en los datos entre estas variables.
Como ya se ha indicado, la MICE requiere que se repitan los pasos 1-5 durante varios ciclos, actualizando en cada ciclo las imputaciones de los valores que faltan de edad, ingresos y sexo.
Podemos especificar de antemano el número de ciclos que se van a realizar (por ejemplo, 10 ciclos) - una vez que llegamos al último ciclo, conservamos los valores imputados correspondientes a ese último ciclo, obteniendo un conjunto de datos imputados (es decir, un conjunto de datos en el que todos los valores que faltan en edad, sexo e ingresos se han sustituido por valores de datos imputados obtenidos mediante un procedimiento iterativo).
En resumen, la MICE imputa los valores que faltan en las variables de un conjunto de datos utilizando un enfoque de divide y vencerás, es decir, centrándose en una variable cada vez. Una vez que se ha centrado en una variable, la MICE utiliza todas las demás variables del conjunto de datos (o un subconjunto razonablemente elegido de estas variables) para predecir la falta en esa variable. La predicción se basa en un modelo de regresión, cuya forma depende de la naturaleza de la variable de enfoque (por ejemplo, la edad y los ingresos requerirán modelos de regresión lineal para la predicción de sus valores perdidos, pero el género requerirá un modelo de regresión logística).