8 votos

¿Por qué estos 2 enfoques a la aplicación de modelos mixtos resultados diferentes?

Yo estoy re-análisis de un colega de datos. Los datos y el código R están aquí.

Es un 2x2x2x2x3 completamente dentro de las Ss de diseño. Una de las variables predictoras, cue, es una de dos niveles de la variable que cuando se derrumbó a una diferencia de puntuación refleja una teoría del valor correspondiente. Ella previamente colapsado cue , para una diferencia de puntuación dentro de cada sujeto y condición, entonces se calcula un análisis de la VARIANZA, obteniéndose un MSE que ella podría entonces utilizar para planeación de las comparaciones de cada condición de la diferencia media de los goles contra cero. Tendrás que confiar en mí que ella no era la pesca y de hecho tiene una buena base teórica para hacer todos los 24 de pruebas.

Yo pensé que iba a ver si había alguna diferencia cuando en lugar de utilizar modelos de efectos mixtos para representar los datos. Como se muestra en el código, me tomó dos enfoques:

Método 1 - Modelo de datos como una 2x2x2x2x3 diseño, obtener a posteriori de las muestras de este modelo, calcular el cue diferencia de puntuación para cada condición dentro de cada muestra, calcular el 95% de intervalo de predicción para la señal de diferencia de puntuación dentro de cada condición.

Método 2 de Colapso cue , para una diferencia de puntuación dentro de cada sujeto y condición, un modelo de los datos como un 2x2x2x3 diseño, obtener a posteriori de las muestras de este modelo, calcular el 95% de intervalo de predicción para la señal de diferencia de puntuación dentro de cada condición.

Parece que el método 1 rendimientos de los más amplios intervalos de predicción que el método 2, con la consecuencia de que si uno utiliza la superposición con el cero como un criterio de "importancia", sólo el 25% de la indicación de las puntuaciones son "significativos" en el método 1, mientras que el 75% de la indicación de las puntuaciones son "significativos" en el método 2. Es notorio, los patrones de significación obtenidos por el método 2 se asemeja a la original ANOVA resultados que son los patrones obtenidos por el método 1.

Alguna idea de lo que está pasando aquí?

0voto

Volomike Puntos 372

No es sorprendente ver que tal diferencia con lmer o lme. Un simple modelo con intercepto aleatorio (por ejemplo, (1|id) en su caso) a veces puede fallar para capturar completamente los efectos al azar. Para ver por qué sucede esto, permítanme usar una forma mucho más simple conjunto de datos que el tuyo para demostrar la sutil diferencia. Con los datos " dat " de la rosca que copio aquí:

dat <- structure(list(sex = structure(c(1L, 2L, 1L, 2L, 1L, 2L, 1L,
2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L,
2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L), .Label = c("f",
"m"), class = "factor"), prevalence = c(0, 0.375, 0.133333333333333,
0.176470588235294, 0.1875, 0, 0, 1, 1, 0.5, 0.6, 0.333333333333333,
0.5, 0, 0.333333333333333, 0, 0.5, 0, 0.625, 0.333333333333333,
0.5, 0, 0.333333333333333, 0.153846153846154, 0.222222222222222,
0.5, 1, 0.5, 0, 0.277777777777778, 0.125, 0, 0, 0.428571428571429,
0.451612903225806, 0.362068965517241), tripsite = structure(c(1L,
1L, 4L, 4L, 14L, 14L, 5L, 5L, 8L, 8L, 15L, 15L, 6L, 6L, 9L, 9L,
11L, 11L, 16L, 16L, 2L, 2L, 7L, 7L, 10L, 10L, 13L, 13L, 17L,
17L, 3L, 3L, 12L, 12L, 18L, 18L), .Label = c("1.2", "4.2", "5.2",
"1.3", "2.3", "3.3", "4.3", "2.4", "3.4", "4.4", "3.5", "5.5",
"4.6", "1.9", "2.9", "3.9", "4.9", "5.9"), class = "factor")), .Names =
c("sex","prevalence", "tripsite"), row.names = c(1L, 2L, 3L, 4L, 9L,
10L, 11L, 12L, 13L, 14L, 17L, 18L, 19L, 20L, 21L, 22L, 23L, 24L,
27L, 28L, 29L, 30L, 31L, 32L, 33L, 34L, 35L, 36L, 38L, 39L, 40L,
41L, 42L, 43L, 45L, 46L), class = "data.frame")

una prueba t pareada (o un caso especial de una forma de sujeto/medidas repetidas ANOVA) sería como su Método 2:

t0 <- with(dat,t.test(prevalence[sex=="f"],prevalence[sex=="m"],paired=TRUE,var.equal=TRUE))
(fstat0 <- t0$statistic^2)         #0.789627

Su lme versión correspondiente a su Método 1 sería:

a1 <- anova(lme(prevalence~sex,random=~1|tripsite,data=dat,method="REML"))
(fstat1 <- a1[["F-value"]][2])   # 0.8056624

Lo mismo para el lmer contraparte:

a2 <- anova(lmer(prevalence~sex+(1|tripsite), data=dat))
(fstat2 <- a2[["F value"]][2])  # 0.8056624

Aunque la diferencia con este simple ejemplo es pequeña, pero es muestra de que la prueba de t pareada tiene un fuerte suposición acerca de los dos niveles ("f" y "m") del factor ("sexo"), que los dos niveles se correlacionan, y tal suposición está ausente en la anterior lme/lmer modelo. Tal asunción diferencia también existe entre los dos métodos en su caso.

Para conciliar la diferencia, podemos continuar con el modelado de 'dat' con una muestra aleatoria de pendiente (o matriz simétrica o incluso agravar la simetría) en lme/lmer:

a3 <- anova(lme(prevalence~sex,random=~sex-1|tripsite,data=dat,method="REML"))
(fstat3 <- a3[["F-value"]][2]) # 0.789627

a31 <- anova(lme(prevalence~sex,random=list(tripsite=pdCompSymm(~sex-1)),data=dat,method="REML")))
(fstat31 <- a31[["F-value"]][2]) # 0.789627

a4 <- anova(lmer(prevalence~sex+(sex-1|tripsite), data=dat))
(fstat4 <- a4[["F value"]][2]) # 0.789627

Sin embargo, con múltiples factores en su caso, múltiples aleatoria de pistas (u otras de efectos aleatorios especificaciones de la estructura) puede ser difícil de manejar con lme/lmer si no imposible.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X