4 votos

Interpretación de residuos en la prueba de chi-cuadrado

Nuevo estadístico novato en busca de ayuda...

Estoy tratando de determinar si las aves en dos áreas diferentes tienen diferentes dietas, basado en 8 categorías de alimentos. Al ejecutar una prueba de chi-cuadrado en R (usando chisq.test()) obtengo un p-valor bajo, indicando que la dieta es de hecho diferente entre estas áreas. Pero me gustaría saber cómo, exactamente, son diferentes. Extraje los residuos estandarizados de la prueba usando stdres que me da esto:

corvid      grouse    thrush    mammal   squirrel   unknown       bird       hare
tz  2.065822  0.05288435 -2.659504  2.464809  0.3361617 -1.785988  0.4370721  0.8356943
cs -2.065822 -0.05288435  2.659504 -2.464809 -0.3361617  1.785988 -0.4370721 -0.8356943

En primer lugar, ¿es esta la forma correcta de señalar cuales categorías difieren entre los grupos? Y, en un lenguaje muy simple y aplicado, ¿cómo interpreto estos residuos? ¿Es preciso, por ejemplo, decir que las aves en el área tz consumen muchas más corvidae de lo esperado? ¿Puedo afirmar con seguridad que no hay diferencia significativa en la cantidad de ardillas consumida entre las dos áreas? No parece haber mucha información sobre el uso de residuos en pruebas de chi-cuadrado y lo que hay utiliza un lenguaje más técnico como qué categoría "contribuye más" lo cual no es muy útil cuando estoy tratando de hacer una declaración ecológica concreta.

¡Gracias de antemano!

Editar para aclarar qué se está contando: mis aves son rapaces carnívoras, así que cada conteo representa una presa (como una ardilla o un zorzal) comida por alguna ave en esa zona. Cada ave puede pertenecer solo a una zona, pero cada ave puede consumir cualquier cantidad de diferentes presas. El conjunto de datos original se ve así:

corvid grouse thrush mammal squirrel unknown bird hare
tz     12      6     36     50      248      36   21    2
cs      0      2     24      7       84      20    6    0

p.d. Sé que los conteos para algunas categorías son un poco bajos, esto es solo un vistazo preliminar y más datos están por venir :)

1 votos

Es difícil explicar esto claramente sin la tabla de contingencia de $2\times 8$ de recuentos que utilizaste como entrada para chisq.test. ¿Puedes añadirla a tu pregunta?

0 votos

¿Puedes clarificar qué es lo que estás contando? ¿Tienes pájaros individuales que categorizas como "este pájaro viene del área tz" y "tiene una dieta que consiste exclusivamente en corvidos"? ¿O es posible que el mismo pájaro pueda tener una dieta que incluya tanto "corvidos" como "mamíferos", por ejemplo? Además, mencionaste "cantidades de ardilla" consumidas por un pájaro - ¿puedes explicar más detalladamente a qué te refieres con eso? El "tipo de dieta" (por ejemplo, corvidos, mamíferos) es bastante diferente de la "cantidad de dieta". ¿Tu pregunta de investigación involucra el "tipo" o la "cantidad" de dieta?

0 votos

El tipo de dieta no tiene mucho sentido en este contexto porque la dieta es diversa y hay mucha superposición. Es decir, ninguna población come solo ardillas o solo zorzales, por lo que no se puede decir que exista una dieta tipo ardilla o una dieta tipo zorzal. Me interesa si la población de una zona come, por ejemplo, más zorzales y menos ardillas que la otra zona, lo cual podría expresarse como cantidad, aunque tal vez porcentaje o proporción serían más precisos. ¡Espero que eso aclare las cosas!

3voto

NetMage Puntos 33

Al observar tu tabla de residuos, en realidad estás considerando más especies que solo aves. ¿Esos desagradables bichitos no dejan en paz tus comederos?

Sin embargo, personalmente suelo comparar directamente la tabla observada con la tabla esperada para ver dónde están los cambios (siempre y cuando tenga razones para rechazar la hipótesis nula de independencia). Encuentro que es más fácil de interpretar. Ambas están disponibles en la salida de la prueba de R. Por supuesto, determinar si una diferencia es grande es difícil de decir solo con conteos absolutos, pero te dará una idea de dónde están las diferencias.

Las stdres te dan los residuos estandarizados. Básicamente son una medida estandarizada del tamaño del efecto.

Si piensas en la distribución normal estándar (con media 0 y desviación estándar 1) probablemente sabes que en esa distribución los valores mayores que +2 o menores que -2 solo ocurren en un 5% o menos.

Si tu muestra es lo suficientemente grande, los stdres siguen aproximadamente una distribución normal estándar y, por lo tanto, los stdres de valor |2| o mayores ocurren en un 5% o menos de todas las posibles muestras. En otras palabras, estas son las diferencias que son "grandes" y han hecho que el valor p de tu prueba chi cuadrado sea pequeño.

En tu caso, la dependencia parece estar impulsada principalmente por los córvidos, mamíferos y mirlos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X