9 votos

¿Por qué la estadística chi-cuadrado sigue la distribución chi-cuadrado?

La fórmula del estadístico de la prueba Chi-cuadrado es la siguiente:

$$\chi^2=\sum_{i=1}^n\frac{({O_i-E_i})^2}{E_i}$$

donde $O_i$ son los datos observados, y $E_i$ se espera.

Sólo tengo curiosidad por saber por qué esto sigue al $\chi^2$ ¿Distribución?

0 votos

Realmente la distribución chi-cuadrado con grado $k$ es la suma de $k$ variables independientes normalmente distribuidas

2 votos

Respuesta corta: no es así. Tu pregunta tiene un error que, incluso después de corregirlo, no implica automáticamente que el componente al que te refieres tenga una distribución normal. Deberías aclarar las circunstancias en las que crees que se mantiene este resultado.

3voto

jasahasch Puntos 21

Es $\frac{O_i-E_i}{E_i}$ que sigue una distribución normal y no su raíz cuadrada. Sólo estamos asumiendo que los errores relativos son gaussianos. Es sólo una suposición. El cuadrado de la variable gaussiana ~ Distribución Gamma (Chi-cuadrado). La suma de estas variables al cuadrado sigue una Chi-cuadrado con $n$ grados de libertad. Ahora bien, si nos fijamos en los valores absolutos, es decir $\left|\frac{O_i-E_i}{E_i}\right|$ tendríamos una distribución seminormal y la suma $\sum_{i=1}^n\left|\frac{O_i-E_i}{E_i}\right|$ acabaría convergiendo a una gaussiana, aunque a diferencia de la Chi-cuadrado, sin una distribución claramente estándar para $n$ pequeño.

1 votos

Gracias por su amable ayuda. Es mi error decir $\sqrt\frac{O_i-E_i}{E_i}$ sigue una distribución normal, y la raíz cuadrada debe ser eliminada.

1 votos

Gracias por su amable ayuda. Es mi error decir $\sqrt\frac{O_i-E_i}{E_i}$ sigue una distribución normal, y la raíz cuadrada debe ser eliminada. Tengo curiosidad por saber cuál es el fundamento de esta suposición.

1voto

Arindam Puntos 21

Es correcto decir que la estadística de "bondad de ajuste" sigue la distribución chi-cuadrado asintóticamente no exactamente . Esto significa que la estadística se encuentra en cualquier intervalo con una probabilidad cercana o aproximadamente igual a la de un $ \chi^2_{n-1} $ variable que se encuentra en el mismo intervalo, proporcionó el tamaño de la muestra $ N $ es grande. Aquí estoy asumiendo que el $E_i$ s son las frecuencias esperadas que surgen de un completamente especificado modelo y no hay estimación de parámetros; de lo contrario, la f.d. cambiaría.

Una prueba clara y sencilla, así como otra menos sencilla, se puede encontrar en http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf . La más sencilla es la siguiente: hay que observar que bajo el modelo, $ (O_1,O_2,\dots,O_n) $ tiene una distribución multinomial con parámetros $N$ y probabilidades de las células $ \left(\frac{E_1}N, \frac{E_2}N, \dots, \frac{E_n}N \right) $ .

Esto significa que cuando $N$ es grande, $ (O_1,O_2,\dots,O_n) $ tiene aproximadamente un $n$ -distribución normal variable, pero una singular uno, ya que $ \sum_{i=1}^N O_i \equiv N $ es no aleatorio . Otra forma de interpretar la singularidad es ver que los parámetros de la distribución son el vector de la media y la matriz de dispersión y esta última es singular.

Sin embargo, cualquier $n-1$ de $ O_1, O_2, \dots, O_n $ tienen aproximadamente un no-singular $(n-1)$ -distribución normal variable. Elección de $ \tilde O := (O_1, O_2, \dots, O_{n-1}) $ la inversa $ \Sigma^{-1} $ de la matriz de dispersión $ \Sigma $ de $\tilde O $ se calcula. Específicamente, $ \Sigma^{-1} $ resulta tener todas las entradas no diagonales iguales a $ 1 / E_n $ y para $ 1 \le 1 \le n-1$ , $ 1/E_i + 1/E_n $ como el $i$ entrada de la diagonal.

Por último, se demuestra que el estadístico de bondad de ajuste es exactamente igual al suma estandarizada de cuadrados $ \{ ( \tilde O - E (\tilde O)\}^T \Sigma^{-1} \{ ( \tilde O - E (\tilde O)\} $ , que sigue aproximadamente una $ \chi^2_{n-1} $ distribución porque $\forall \: k $ el mapa en ${\mathbb R}^k $ que toma un vector $ \tilde x $ al número real $ ( \tilde x - \tilde a )^T A ( \tilde x - \tilde a ) $ , siempre que $ \tilde a \in {\mathbb R}^k$ y el $k\times k $ matriz $ A $ son fijos, es una función continua, y el suma estandarizada de cuadrados a partir de una exacta $k$ -La distribución normal no singular es $\chi^2_k$ distribuido. Aquí $ n-1 $ se utiliza como $k$ .

Para comprobar la igualdad de la estadística de la prueba con $ \{ ( \tilde O - E (\tilde O)\}^T \Sigma^{-1} \{ ( \tilde O - E (\tilde O)\} $ , tendrá que utilizar los hechos que $ E(O_i) = E_i $ bajo el modelo; y repetidamente que $ \sum_{i=1}^n (O_i-E_i) = N - N = 0 $ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X