22 votos

Residuos de Pearson

Una pregunta para principiantes sobre el residuo de Pearson en el contexto de la prueba chi-cuadrado de bondad de ajuste:

Además de la estadística de prueba, R chisq.test informa del residuo de Pearson:

(obs - exp) / sqrt(exp)

Entiendo por qué mirar la diferencia bruta entre los valores observados y esperados no es tan informativo, ya que una muestra más pequeña dará lugar a una diferencia más pequeña. Sin embargo, me gustaría saber más sobre el efecto del denominador: ¿por qué dividir por la raíz del valor esperado? ¿Se trata de un residuo "normalizado"?

21voto

Aaron Puntos 36

El modelo estadístico estándar subyacente al análisis de las tablas de contingencia consiste en suponer que (incondicionalmente al recuento total) los recuentos de células son variables aleatorias de Poisson independientes. Por lo tanto, si tiene un $n \times m$ tabla de contingencia, el modelo estadístico utilizado como base para el análisis considera que cada recuento de celdas tiene una distribución incondicional:

$$X_{i,j} \text{ ~ Pois}(\mu_{i,j})$$

Una vez que se impone un recuento total de celdas para la tabla de contingencia, o un recuento de filas o columnas, las distribuciones condicionales resultantes de los recuentos de celdas pasan a ser multinomiales. En cualquier caso, para una distribución de Poisson tenemos $\mathbb{E}(X_{i,j}) = \mathbb{V}(X_{i,j}) = \mu_{i,j}$ por lo que el recuento estandarizado de células es:

$$\text{STD}(X_{i,j}) \equiv \frac{X_{i,j} - \mathbb{E}(X_{i,j})}{\sqrt{\mathbb{V}(X_{i,j})}} = \frac{X_{i,j} - \mu_{i,j}}{\sqrt{\mu_{i,j}}}$$

Así pues, lo que se ve en la fórmula sobre la que pregunta es el recuento estandarizado de células, bajo el supuesto de que los recuentos de células tienen una distribución de Poisson (incondicional).

A partir de aquí, es habitual probar la independencia de la variable fila y columna en los datos, y en este caso se puede utilizar un estadístico de prueba que examine la suma de los cuadrados de los valores anteriores (que equivale a la norma cuadrada del vector de valores normalizados). La prueba chi-cuadrado proporciona un valor p para este tipo de prueba basado en una aproximación de muestra grande a la distribución nula de la estadística de prueba. Suele aplicarse en casos en los que ninguno de los recuentos de ventas es demasiado pequeño.

0voto

En el contexto de la bondad del ajuste, puede referirse a esto http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm .

Si quieres saber cómo ha llegado ahí el denominador, tendrás que ver aquí la chi-cuadrado como una aproximación normal a la binomial, para empezar, que luego se puede extender a los multinomios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X