En resumen, mi pregunta es si los resultados de un MLG (binomio negativo) para una variable categórica deberían coincidir con los resultados de una prueba no paramétrica, en este caso una prueba de kruskal-wallis.
Esta cuestión puede ser un artefacto de mi conjunto de datos particular, pero intentaré explicarlo. Estoy observando los recuentos de peces con respecto a una serie de variables ambientales. Tengo varias variables independientes, pero por ahora me interesa la interpretación de Biogenics (número de anémonas como Metridium).
Un GLM binomial negativo sugiere que con respecto al nivel de referencia 'Biogenics1', los interceptos de Biogenics2 y Biogenics4 son significativamente diferentes. (En este caso, el recuento medio de peces es menor).
Pero si realizo una prueba de Kruskal.Wallis sobre los mismos datos buscando diferencias en los recuentos entre los niveles de Biogenics, hay un valor p insignificante. Tal vez estoy confundido en la interpretación de estos resultados (GLM vs kruskal.wallis), y cómo deben (o no deben) relacionarse entre sí. ¿Estoy equivocado al pensar que una diferencia significativa en los interceptos binomiales negativos debería traducirse en diferencias significativas en los recuentos medios a través de los niveles de un factor particular?
Si el GLM me dice que hay una diferencia entre los niveles de Biogenics, pero Kruskal Wallis dice "no, no hay", ¿es esto un problema?
glm.nb(formula = fish.counts ~ Bottom.Type + Lat + Slope + Depth_m +
Biogenics + offset(log(area)), data = fish, maxit = 500,
init.theta = 0.3167104931, link = log)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.5296 -0.7711 -0.4639 -0.2190 4.4543
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 100.479364 8.357186 12.023 < 2e-16 ***
Bottom.TypeHard 1.864022 0.273399 6.818 9.24e-12 ***
Bottom.TypeMixed 0.606571 0.319242 1.900 0.057429 .
Lat -2.831241 0.226682 -12.490 < 2e-16 ***
Slope -0.037392 0.014754 -2.534 0.011266 *
Depth_m -0.010358 0.004173 -2.482 0.013048 *
Biogenics2 -1.170058 0.315571 -3.708 0.000209 ***
Biogenics3 -0.400999 0.327457 -1.225 0.220732
Biogenics4 -0.753762 0.229439 -3.285 0.001019 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for Negative Binomial(0.3167) family taken to be 1)
Null deviance: 936.30 on 702 degrees of freedom
Residual deviance: 411.16 on 694 degrees of freedom
AIC: 1503.6
kruskal.test(fish.counts ~ Biogenics, data = fish)
---
Kruskal-Wallis rank sum test
data: fish.counts by Biogenics
Kruskal-Wallis chi-squared = 3.45, df = 3, p-value = 0.3273
P.D. Sé que a nadie le gustan las preguntas del tipo "aquí está mi código, explique los resultados", por lo que no estoy pidiendo los resultados específicos del MLG, sino cómo interpretar estas dos pruebas estadísticas a la luz de cada una.
P.SS Una prueba de ratio de verosimilitud para el GLM NB sugiere que la variable global Biogenics mejora el ajuste del modelo, y no debería ser eliminada