Estoy completamente fuera de mi profundidad sobre esto, y de toda la lectura que intente hacer me confunde. Estoy esperando que usted puede explicarle las cosas a mí de una manera que tenga sentido. (Como siempre parece ser el caso, "no debería ser tan difícil!")
Estoy tratando de ayudar a un alumno que está estudiando el efecto de los sistemas sociales en la prevalencia de las enfermedades en diversos cánido especies de acogida. Queremos considerar el sistema social (por ejemplo, del grupo de-vida vs solitario) como un efecto fijo, y albergan especies como efecto aleatorio anidado dentro de un sistema social (es decir, cada una de las especies sólo se dispone de un sistema social de tipo).
Mi entendimiento es que la mejor manera de hacer esto sería hacer una mezcla de efectos de regresión logística. Hemos hecho esto, y funciona, y éramos felices. Por desgracia, su asesor es insistir en que ella calcular la cantidad de variación debido a que el sistema social del huésped contra las especies vs residual. Yo no puedo averiguar cómo hacerlo a través de efectos mixtos de regresión logística, y mi pregunta anterior sobre este tema quedó sin respuesta.
Su asesor sugirió hacer ANOVA lugar, logit-la transformación de la prevalencia de la enfermedad de valores (la fracción de la población que está infectado). Esto presenta un problema debido a que algunos de la prevalencia de los valores son 0 o 1, lo que resultaría en $-\infty$ o $\infty$ una vez logit-transformado. Su asesor de la "solución" fue sustituto $-5$ $5$ $-\infty$ o $\infty$, respectivamente. Esto se siente realmente kludgey y me hace temblar bastante duro. Pero él es el uno de calificaciones de ella, y en este momento solo quiero hacer con esto, así que si él está bien con él, luego lo que sea.
Estamos usando R para este análisis. El código se puede descargar aquí, y los datos de entrada aquí. El archivo de datos incluye datos sobre dos diferentes patógenos (a y B), de la cual estamos analizando por separado (como se muestra en el código).
Aquí está el ANOVA de configuración que hemos hecho para el Patógeno B:
mod1.lm <- lm(Seroprevalence_logit ~ Social.System + Social.System/Host.Species,
data = prev_B)
print(mod1.anova <- anova(mod1.lm))
Esto lleva a mi primera pregunta: ¿Es correcto y apropiado? Factores a considerar:
- Queremos tener un Modelo II (efecto aleatorio) variable anidada dentro de un Modelo I (efecto fijo) de la variable.
- No todo sistema social tiene el mismo número de especies de acogida anidada dentro de ella.
- No todas las especies de acogida tiene el mismo número de poblaciones examinadas.
- No toda la población examinados tenían el mismo número de individuos (columna N_indiv en mydata.csv). Esto es más de una ponderación problema de algo más fundamental, creo yo.
Mi siguiente pregunta, y la principal de este post, es: ¿Cómo puedo partición de la varianza? He aquí lo que estaban pensando:
MS_A <- mod1.anova$"Mean Sq"[1]
MS_BinA <- mod1.anova$"Mean Sq"[2]
MS_resid <- mod1.anova$"Mean Sq"[3]
n <- length(unique(prev_A$Social.System))
r <- length(unique(prev_A$Host.Species))
VC_A <- (MS_A - MS_BinA)/(n*r)
VC_BinA <- (MS_BinA - MS_resid)/n
VC_resid <- MS_resid
Por desgracia, esto se traduce en tristeza utilizando el análisis de VARIANZA de la especificación he detallado anteriormente. Aquí están los resultados para el Patógeno B:
VC_A
(es decir, Social.Sistema): $-1.48$VC_BinA
(es decir, en el de Acogida.Las especies): $13.8$VC_resid
: $5.57$
La investigación me lleva a creer que esto debe resultar en componentes de varianza de los porcentajes de 0%, el 71,3% y 28,7%, respectivamente. Sin embargo, esto es insuficiente por dos razones:
- El p-valor Social.Sistema de la ANOVA se ~$0.025$, lo que sugiere que se deben tener en cuenta al menos algunos de la varianza observada. (Anfitrión.Especies tenían un valor de p ~$3*10^{-5}$.)
- Me preocupa que una desviación negativa componente podría ser una bandera roja para algo.
Por favor, cualquier ayuda que puede representar a cualquiera de estas preguntas, sería muy apreciado. I TA d a un curso de licenciatura en bioestadística, así que tengo un poco de contexto, pero me parece que no puede averiguar estos problemas específicos. Gracias de antemano.