23 votos

Imputación múltiple y selección de modelos

La imputación múltiple es bastante sencilla cuando se dispone de un a priori modelo lineal que desea estimar. Sin embargo, las cosas parecen ser un poco más complicadas cuando en realidad se quiere hacer alguna selección de modelos (por ejemplo, encontrar el "mejor" conjunto de variables predictoras de un conjunto más amplio de variables candidatas - estoy pensando específicamente en LASSO y polinomios fraccionarios utilizando R).

Una idea sería ajustar el modelo en los datos originales con valores perdidos y, a continuación, volver a estimar este modelo en conjuntos de datos de IM y combinar las estimaciones como se haría normalmente. Sin embargo, esto parece problemático, ya que se espera un sesgo (si no, ¿para qué hacer el IM en primer lugar?), lo que podría llevar a seleccionar un modelo "equivocado" desde el principio.

Otra idea sería pasar por el proceso de selección de modelos que esté utilizando en cada conjunto de datos de IM, pero ¿cómo combinaría los resultados si incluyen diferentes conjuntos de variables?

Una idea que se me ocurrió fue apilar un conjunto de conjuntos de datos de IM y analizarlos como un gran conjunto de datos que luego se utilizaría para ajustar un único modelo, el "mejor", e incluir un efecto aleatorio para tener en cuenta el hecho de que se están utilizando medidas repetidas para cada observación.

¿Le parece razonable? ¿O quizás increíblemente ingenuo? Agradeceríamos cualquier indicación sobre esta cuestión (selección de modelos con imputación múltiple).

12voto

Stef van Buuren Puntos 1130

Hay muchas cosas que puede hacer para seleccionar variables a partir de datos imputados múltiples, pero no todas producen estimaciones adecuadas. Véase Wood et al (2008) Stat Med para comparar varias posibilidades.

En la práctica, me ha resultado útil el siguiente procedimiento en dos pasos.

  1. Aplique el método de selección de variables que prefiera de forma independiente a cada una de las $m$ conjuntos de datos imputados. Obtendrá $m$ diferentes modelos. Para cada variable, cuente el número de veces que aparece en el modelo. Seleccione las variables que aparecen al menos en la mitad de los modelos. $m$ modelos.
  2. Utilice el valor p del estadístico de Wald o de la prueba de la razón de verosimilitud calculado a partir del $m$ conjuntos de datos multiimputados como criterio para la posterior selección escalonada de modelos.

El paso de preselección 1 se incluye para reducir la cantidad de cálculos. Véase https://stefvanbuuren.name/fimd/sec-stepwise.html (sección 5.4.2) para ver un ejemplo de código del método de los dos pasos en R utilizando mice() . En Stata, puede realizar el paso 2 (en todas las variables) con mim:stepwise .

4voto

Kyle Polich Puntos 8

Es sencillo: Puede aplicar las reglas estándar de combinación de IM, pero los efectos de las variables que no se admiten en todos los conjuntos de datos imputados serán menos pronunciados. Por ejemplo, si una variable no se selecciona en un conjunto de datos imputado específico, su estimación (incluida la varianza) es cero y esto tiene que reflejarse en las estimaciones utilizadas al utilizar la imputación múltiple. Puede considerar el bootstrapping para construir intervalos de confianza que incorporen la incertidumbre de la selección del modelo, eche un vistazo a esta publicación reciente que aborda todas las cuestiones: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Yo evitaría utilizar enfoques pragmáticos como seleccionar una variable si está seleccionada en m/2 conjuntos de datos o algo similar, porque la inferencia no está clara y es más complicada de lo que parece a primera vista.

4voto

JD Long Puntos 20477

Yo tenía el mismo problema.

Mi elección fue el llamado "lazo de imputación múltiple". Básicamente, combina todos los conjuntos de datos imputados y adopta el concepto de lazo de grupo: cada variable candidata generaría m variables ficticias. Cada variable ficticia corresponde a un conjunto de datos imputados.

Entonces todos los m se agrupan las variables ficticias. descartaría la variable candidata de un m variables ficticias en todos los conjuntos de datos imputados o mantenerlas en todos los conjuntos de datos imputados.

Por tanto, la regresión lasso se ajusta a todos los conjuntos de datos imputados conjuntamente.

Compruebe el papel :

Chen, Q. & Wang, S. (2013). "Variable selection for multiply-imputed data with application to dioxin exposure study," Statistics in Medicine, 32:3646-59.

Y un programa R pertinente

1voto

generic_user Puntos 2269

Me he enfrentado a un problema similar: tengo un conjunto de datos en el que sabía desde el principio que quería incluir todas las variables (me interesaban los coeficientes más que la predicción), pero no sabía a priori qué interacciones debían especificarse.

Mi método consistió en escribir un conjunto de modelos candidatos, realizar múltiples imputaciones, estimar los múltiples modelos y simplemente guardar y promediar los AIC de cada modelo. Se seleccionó la especificación del modelo con el promedio de AIC más bajo.

Pensé en añadir una corrección para penalizar la varianza entre imputaciones en el AIC. Sin embargo, pensándolo bien, me pareció inútil.

El planteamiento me pareció bastante sencillo, pero lo inventé yo, y no soy un célebre estadístico. Antes de utilizarlo, quizá quieras esperar a que la gente me corrija (¡lo cual sería bienvenido!) o vote esta respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X