¿Existen alternativas fáciles de usar a la selección de variables por pasos para los GLMM? He visto implementaciones de, por ejemplo, LASSO para la regresión lineal, pero hasta ahora no he visto nada para los modelos mixtos. Los modelos mixtos parecen no ser triviales en general, por lo que me pregunto si se ha adaptado alguno de los nuevos métodos extravagantes a partir de ellos (y posiblemente implementados en R). Usar cualquier procedimiento de selección que te guste y luego validar los resultados parece una manera sensata de ir mientras tanto.
Para dar un poco de contexto: en mi proyecto actual, estoy considerando aproximadamente 700 variables y 5000 observaciones binarias. La selección por pasos tarda aproximadamente 1 día; muchas variables tienen un 10% de omisión.
Edición: ¡Gracias por las respuestas tan interesantes hasta ahora! Dos cuestiones que me preocupan son: si estos nuevos métodos tienen tiempos de ejecución más largos que la selección por pasos y si pueden tratar los datos que faltan (si cada variable tiene una falta diferente, es muy fácil perder todas las observaciones en un análisis de caso completo, algo que la selección por pasos puede tratar utilizando sólo pequeños subconjuntos de las variables disponibles al mismo tiempo).
2 votos
Mira un poco más de cerca:
glmmLasso
existe.0 votos
Gracias @usr11852 . Es genial saber que este método existe. Parece ser muy rápido (comparado con la selección por pasos). Sin embargo, a diferencia de la selección por pasos, nos limita a un análisis de caso completo, lo que puede ser un problema cuando se utiliza un gran número de variables con diferentes omisiones. Obtuve un error de "matriz de Fisher no invertible", pero es posible que mi matriz de diseño sea deficiente en cuanto al rango. Si tiene alguna sugerencia para evitar un análisis de casos completo (observando sólo pequeños subconjuntos de las variables al mismo tiempo), por favor hágamelo saber. También, por favor, siéntase libre de convertir esto en una respuesta.
1 votos
Para resolver el problema de los datos perdidos, considere la imputación múltiple. Este documento proporciona una forma de combinar la imputación múltiple con LASSO; a primera vista parece que debería funcionar también con glmmLasso, pero puede requerir algún esfuerzo para su implementación. Alternativamente, vea si puede combinar sus 700 variables en un conjunto más pequeño basado en el conocimiento del tema, para minimizar el problema de los datos faltantes.
0 votos
@EdM gracias por el artículo tan interesante. Hasta ahora he evitado el IM ya que mi objetivo particular es la predicción más que la inferencia (y los interesados tienen algunas preocupaciones sobre una gran cantidad de imputación). A primera vista, el artículo parece implicar la imputación de la manera habitual, luego hacer LASSO de la manera habitual y luego agregar los resultados de una manera novedosa, por lo que podría ser compatible con las implementaciones existentes. Esto parece que podría permitirme resolver mi problema si consigo que todo funcione.