5 votos

Alternativas a la regresión por pasos para los modelos lineales mixtos generalizados

¿Existen alternativas fáciles de usar a la selección de variables por pasos para los GLMM? He visto implementaciones de, por ejemplo, LASSO para la regresión lineal, pero hasta ahora no he visto nada para los modelos mixtos. Los modelos mixtos parecen no ser triviales en general, por lo que me pregunto si se ha adaptado alguno de los nuevos métodos extravagantes a partir de ellos (y posiblemente implementados en R). Usar cualquier procedimiento de selección que te guste y luego validar los resultados parece una manera sensata de ir mientras tanto.

Para dar un poco de contexto: en mi proyecto actual, estoy considerando aproximadamente 700 variables y 5000 observaciones binarias. La selección por pasos tarda aproximadamente 1 día; muchas variables tienen un 10% de omisión.

Edición: ¡Gracias por las respuestas tan interesantes hasta ahora! Dos cuestiones que me preocupan son: si estos nuevos métodos tienen tiempos de ejecución más largos que la selección por pasos y si pueden tratar los datos que faltan (si cada variable tiene una falta diferente, es muy fácil perder todas las observaciones en un análisis de caso completo, algo que la selección por pasos puede tratar utilizando sólo pequeños subconjuntos de las variables disponibles al mismo tiempo).

2 votos

Mira un poco más de cerca: glmmLasso existe.

0 votos

Gracias @usr11852 . Es genial saber que este método existe. Parece ser muy rápido (comparado con la selección por pasos). Sin embargo, a diferencia de la selección por pasos, nos limita a un análisis de caso completo, lo que puede ser un problema cuando se utiliza un gran número de variables con diferentes omisiones. Obtuve un error de "matriz de Fisher no invertible", pero es posible que mi matriz de diseño sea deficiente en cuanto al rango. Si tiene alguna sugerencia para evitar un análisis de casos completo (observando sólo pequeños subconjuntos de las variables al mismo tiempo), por favor hágamelo saber. También, por favor, siéntase libre de convertir esto en una respuesta.

1 votos

Para resolver el problema de los datos perdidos, considere la imputación múltiple. Este documento proporciona una forma de combinar la imputación múltiple con LASSO; a primera vista parece que debería funcionar también con glmmLasso, pero puede requerir algún esfuerzo para su implementación. Alternativamente, vea si puede combinar sus 700 variables en un conjunto más pequeño basado en el conocimiento del tema, para minimizar el problema de los datos faltantes.

1voto

Dario Castañé Puntos 131

¿Qué le parece el método de agregación de conjuntos, también conocido como fanfarronería? Con este método, básicamente se crea un gran número de réplicas del conjunto de datos original utilizando un muestreo aleatorio simple con reemplazo (digamos 10.000 conjuntos de datos bootstrapped) de su conjunto de datos original. A continuación, se implementa una rutina de selección de variables (tal vez los mejores subconjuntos o los métodos tradicionales de selección por pasos) para seleccionar los coeficientes o predictores que son significativos para cada una de las muestras de boostrapped. Realice las rutinas para cada muestra con bootstrap y luego observe los índices de frecuencia con que se seleccionan los predictores. Los predictores que aparecen, por ejemplo, en el 90% o más de la muestra se utilizan en el modelo mixto final. Hay muchos otros métodos que podrían utilizarse también, pero destaco éste porque es sencillo de explicar y suele ser muy fácil de aplicar. Para más información, véase Breiman, Leo (1996). "Bagging predictors". Machine Learning 24 (2): 123-140. doi:10.1007/BF00058655.

1 votos

(1) ¿se refiere a embolsar y no a presumir en la primera línea? (2) ¿tiene sentido hacer un muestreo aleatorio simple cuando los datos están agrupados (ya que es un modelo mixto)?

0 votos

Hola, Ben. Sí, he mezclado un poco la terminología. En teoría, se podría utilizar "bagging" o "bragging" (el bagging utiliza la media y el bragging la mediana; la "r" de "bragging" significa "robusto", lo que indica el uso de la mediana). Para ser justos, Buhlman introdujo el término "Braggin" con una "r" en 2003, pero es una extensión del trabajo de Breiman. Usted hace un buen punto en relación con el esquema de muestreo bootstrap. Si los datos están agrupados, es mejor seleccionar los conglomerados de forma aleatoria en lugar de las observaciones individuales o utilizar un método de muestreo que sea coherente con la forma en que se recogieron los datos.

0 votos

Gracias @StatsStudent. Definitivamente parece un enfoque interesante. Si lo he entendido bien, implicará la repetición de la selección de variables un número bastante grande de veces (sospecho que similar al bootstrap tradicional 1.000 podría ser un límite inferior). Esto puede limitar su aplicabilidad, ya que una ejecución de la selección por pasos a menudo me lleva un día.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X