4 votos

Transformación de datos GLM vs raíz cuadrada

Actualmente estoy analizando unos datos bastante terribles/incómodos sobre la abundancia de peces en tres "Regímenes Hidrológicos" diferentes (5 mediciones de abundancia para cada régimen - Corto/Medio/Largo). El plan de análisis actual había sido un ANOVA de una vía.

Si se observan los residuos frente a los ajustados y la Q-Q normal después de introducirlos en un modelo lineal, se observa un sesgo a la derecha. Para corregir esto, intenté transformar la variable de resultado en Sq. Rt, lo que da una respuesta razonable, siendo "corto" significativamente diferente a "largo" y "medio" después de un Tukey post-hoc. Sin embargo, al trazar los datos, las barras de error de "largo" y "medio" no se superponen.

También he considerado la posibilidad de utilizar un MLG de Poisson, que he leído que es bueno para datos de recuento y asimétricos, pero no estoy seguro de que sea el camino correcto. ¿Alguna sugerencia?

0 votos

No puedo decir por su pregunta, ¿son sus mediciones con cada régimen independientes?

0 votos

Bueno, yo no recogí los datos, pero cada hidroperiodo es el porcentaje de tiempo que un sitio está inundado de agua, y se hizo un recuento de la abundancia de peces durante cada uno. Lógicamente, yo pensaría que todo esto ha ocurrido en un sitio durante diferentes eventos de inundación.

5voto

alexs77 Puntos 36

Un modelo de Poisson sería sin duda una forma sensata de realizar este análisis.

Tradicionalmente (antes de que existieran los MLG de Poisson), estos datos se analizaban utilizando transformaciones de raíz cuadrada como transformación "estabilizadora de la varianza" (es decir, para que la varianza fuera independiente de la media). El problema es que, al transformar los datos, resulta difícil interpretar los coeficientes del modelo. Con una transformación de raíz cuadrada de los datos, los parámetros estiman una diferencia en raíces cuadradas de los recuentos.

Un MLG de Poisson permite explotar la relación media-varianza en los datos de recuento para obtener una mejor inferencia. Los parámetros estiman las proporciones de las tasas entre los distintos niveles de tratamiento. Y, debido al pequeño tamaño de la muestra, se trata de un enfoque de modelización paramétrica con supuestos razonables que le proporcionará una inferencia relativamente eficiente.

1 votos

Esto fue realmente útil, gracias. La ejecución del GLM de poisson y un tukey post-hoc revelaron diferencias significativas entre los tres hidrorregímenes. Sin embargo, parece que no puedo obtener ningún valor de significación global con anova() o summary(), y creo que hay un serio exceso de dispersión en los datos - Desviación residual: 1498,8 en 13 grados de libertad. Por lo tanto, probé con un Quasi-Poisson, pero el tukey post-hoc dio un resultado muy similar al de la transformación de la raíz cuadrada. ¡Estoy muy confundido! ¡Ayúdame AdamO, eres mi única esperanza!

2 votos

Quasi-Poisson tiene en cuenta los datos sobredispersos (el tipo de datos que surge de una ligera correlación no medida entre grupos de observación. Se necesitaría una justificación para motivar el uso de la cuasi). Dejemos de lado esa idea por ahora. Su sintaxis sugiere que está utilizando R. Importe el paquete lmtest . Puede realizar la prueba de razón de verosimilitud de la hipótesis nula de que todos los regímenes tienen la misma abundancia escribiendo lrtest(glm(abund ~ regime, family=poisson)) .

1 votos

Lmtest es un as. Funcionó muy bien, ¡gracias AdamO! Por interés, hice un AIC en los dos modelos (transformado SQRT y glm) para comparar cómo se ajustan a los datos, con estos resultados: > AIC( fish.glm) [1] 1630.778 > AIC( lm.sqrt.fish ) [1] 104.5409

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X