45 votos

¿Cuál es el número mínimo recomendado de grupos para un factor de efectos aleatorios?

Estoy utilizando un modelo mixto en R ( lme4 ) para analizar algunos datos de medidas repetidas. Tengo una variable de respuesta (contenido de fibra en las heces) y 3 efectos fijos (masa corporal, etc.). Mi estudio sólo tiene 6 participantes, con 16 medidas repetidas para cada uno (aunque dos sólo tienen 12 repeticiones). Los sujetos son lagartos a los que se les dio diferentes combinaciones de alimentos en diferentes "tratamientos".

Mi pregunta es: ¿puedo utilizar el ID del sujeto como efecto aleatorio?

Sé que esta es la forma habitual de actuar en los modelos longitudinales de efectos mixtos, para tener en cuenta la naturaleza de la muestra aleatoria de los sujetos y el hecho de que las observaciones dentro de los sujetos estarán más correlacionadas que las de los sujetos. Pero, tratar el ID del sujeto como un efecto aleatorio implica estimar una media y una varianza para esta variable.

  • Dado que sólo tengo 6 sujetos (6 niveles de este factor), ¿es esto suficiente para obtener una caracterización precisa de la media y la varianza?

  • ¿Ayuda en este sentido el hecho de que tenga bastantes mediciones repetidas para cada sujeto (no veo qué importancia tiene)?

  • Por último, si no puedo utilizar el ID del sujeto como efecto aleatorio, ¿incluirlo como efecto fijo me permitirá controlar el hecho de que tengo medidas repetidas?

Editar: Me gustaría aclarar que cuando digo "puedo" utilizar la identificación del sujeto como efecto aleatorio, quiero decir "es una buena idea hacerlo". Sé que puedo ajustar el modelo con un factor de sólo 2 niveles, pero seguramente esto sería indefendible. Pregunto en qué momento es sensato pensar en tratar a los sujetos como efectos aleatorios. Parece que la literatura aconseja que 5-6 niveles es un límite inferior. Me parece que las estimaciones de la media y la varianza del efecto aleatorio no serían muy precisas hasta que hubiera más de 15 niveles de factores.

5voto

François Puntos 632

Yo no utilizaría un modelo de efectos aleatorios con sólo 6 niveles. Los modelos que utilizan un efecto aleatorio de 6 niveles pueden ejecutarse a veces con muchos programas estadísticos y a veces dan estimaciones insesgadas, pero:

  1. Creo que existe un consenso arbitrario en la comunidad estadística de que 10-20 es el número mínimo. Si quieres que se publique tu investigación, te aconsejamos que busques una revista sin revisión estadística (o que seas capaz de justificar tu decisión con un lenguaje bastante sofisticado).
  2. Con tan pocos conglomerados, es probable que la varianza entre conglomerados esté mal estimada. Una mala estimación de la varianza entre conglomerados suele traducirse en una mala estimación del error estándar de los coeficientes de interés. (los modelos de efectos aleatorios se basan en que el número de conglomerados es teóricamente infinito).
  3. A menudo los modelos simplemente no convergen. ¿Has probado a ejecutar tu modelo? Me sorprendería que con sólo 12-16 medidas por sujeto los modelos convergieran. Cuando he conseguido que este tipo de modelo converja, he tenido cientos de medidas por grupo.

Esta cuestión se aborda en la mayoría de los libros de texto habituales en la materia y usted la ha abordado más o menos en su pregunta. No creo que te esté dando ninguna información nueva.

4voto

John Jacq Puntos 11

Ha pasado mucho tiempo desde la pregunta original, pero he pensado que podría añadir algunos puntos pertinentes a la selección del modelo.

1 - Siempre que el modelo esté identificado (es decir, que tenga grados de libertad en el espacio de los parámetros) debería poder INTENTAR ajustar el modelo. Dependiendo del método de optimización, el modelo puede converger o no. En cualquier caso, yo no trataría de incluir más de 1 o 2 efectos aleatorios y definitivamente no más de 1 interacción de nivel cruzado. En el caso específico del problema presentado aquí, si sospechamos que existe una interacción entre las características específicas de los lagartos (por ejemplo, la edad, el tamaño, etc.) y las características del tratamiento/medida, el tamaño del grupo 6 puede no ser suficiente para hacer estimaciones suficientemente precisas.

2 - Como mencionan un par de respuestas, la convergencia puede ser un problema. Sin embargo, mi experiencia es que mientras que los datos de las ciencias sociales tienen un enorme problema de convergencia debido a los problemas de medición, las ciencias de la vida y especialmente las medidas repetidas bioquímicas tienen errores estándar mucho más pequeños. Todo depende del proceso de generación de datos. En los datos sociales y económicos tenemos que trabajar a varios niveles de abstracción. En los datos biológicos y químicos, y seguramente en los astronómicos, el error de medición es un problema menor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X