La imputación múltiple es bastante sencilla cuando se dispone de un a priori modelo lineal que desea estimar. Sin embargo, las cosas parecen ser un poco más complicadas cuando en realidad se quiere hacer alguna selección de modelos (por ejemplo, encontrar el "mejor" conjunto de variables predictoras de un conjunto más amplio de variables candidatas - estoy pensando específicamente en LASSO y polinomios fraccionarios utilizando R).
Una idea sería ajustar el modelo en los datos originales con valores perdidos y, a continuación, volver a estimar este modelo en conjuntos de datos de IM y combinar las estimaciones como se haría normalmente. Sin embargo, esto parece problemático, ya que se espera un sesgo (si no, ¿para qué hacer el IM en primer lugar?), lo que podría llevar a seleccionar un modelo "equivocado" desde el principio.
Otra idea sería pasar por el proceso de selección de modelos que esté utilizando en cada conjunto de datos de IM, pero ¿cómo combinaría los resultados si incluyen diferentes conjuntos de variables?
Una idea que se me ocurrió fue apilar un conjunto de conjuntos de datos de IM y analizarlos como un gran conjunto de datos que luego se utilizaría para ajustar un único modelo, el "mejor", e incluir un efecto aleatorio para tener en cuenta el hecho de que se están utilizando medidas repetidas para cada observación.
¿Le parece razonable? ¿O quizás increíblemente ingenuo? Agradeceríamos cualquier indicación sobre esta cuestión (selección de modelos con imputación múltiple).