4 votos

Validación cruzada K-fold para conjuntos de datos jerárquicos en un marco de efectos mixtos (glmer)

Me gustaría evaluar el rendimiento predictivo de mi modelo de regresión logística de efectos mixtos utilizando el paquete lme4 (glmer). Mi modelo es el siguiente:

glmer(R0A1~MP_Scaled+MPHW_Scaled+HW_Scaled+YP_Scaled+AG_Scaled+SS_Scaled+PR_Scaled+SR_Scaled+(1|Animal_ID)+(1|Year),data=males, family=binomial(link="logit"),nAGQ = 0)

Mi conjunto de datos está estructurado de la siguiente manera: enter image description here

Los únicos paquetes que he encontrado útiles son DAAG o cv.glm; sin embargo, estos paquetes se basan en modelos lineales generalizados. Dada la estructura anidada de mis datos (ubicaciones de animales anidadas dentro de ID de animal), ¿serían apropiados estos paquetes para realizar una validación cruzada k-fold? En otras palabras, tendría que eliminar los efectos aleatorios y ejecutar los paquetes, lo cual me pregunto si influiría en el resultado, especialmente dada la estructura jerárquica de los datos.

4voto

cbeleites Puntos 12461

Trabajo muchas veces con datos jerárquicos/anidados (por ejemplo, muchas mediciones más o menos repetidas de pocos pacientes) y encuentro que realmente necesito dividir en el nivel más alto de la jerarquía de datos. No hacer esto y usar el CV estándar por filas puede, en mi experiencia, llevar a subestimar el error en un orden de magnitud.

Así que si tus ubicaciones están anidadas dentro de los animales, te recomendaría validar cruzadamente los animales. Si tienes observaciones (parcialmente) cruzadas, por ejemplo, animales x año, puede que necesites asegurarte de que los datos de prueba sean independientes tanto respecto al animal como al año.

Según tengo entendido, la versión en GitHub del paquete cvTools de Andreas Alfons admite la especificación de grupos a respetar en la división.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X