Es correcto decir que la estadística de "bondad de ajuste" sigue la distribución chi-cuadrado asintóticamente no exactamente . Esto significa que la estadística se encuentra en cualquier intervalo con una probabilidad cercana o aproximadamente igual a la de un $ \chi^2_{n-1} $ variable que se encuentra en el mismo intervalo, proporcionó el tamaño de la muestra $ N $ es grande. Aquí estoy asumiendo que el $E_i$ s son las frecuencias esperadas que surgen de un completamente especificado modelo y no hay estimación de parámetros; de lo contrario, la f.d. cambiaría.
Una prueba clara y sencilla, así como otra menos sencilla, se puede encontrar en http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf . La más sencilla es la siguiente: hay que observar que bajo el modelo, $ (O_1,O_2,\dots,O_n) $ tiene una distribución multinomial con parámetros $N$ y probabilidades de las células $ \left(\frac{E_1}N, \frac{E_2}N, \dots, \frac{E_n}N \right) $ .
Esto significa que cuando $N$ es grande, $ (O_1,O_2,\dots,O_n) $ tiene aproximadamente un $n$ -distribución normal variable, pero una singular uno, ya que $ \sum_{i=1}^N O_i \equiv N $ es no aleatorio . Otra forma de interpretar la singularidad es ver que los parámetros de la distribución son el vector de la media y la matriz de dispersión y esta última es singular.
Sin embargo, cualquier $n-1$ de $ O_1, O_2, \dots, O_n $ tienen aproximadamente un no-singular $(n-1)$ -distribución normal variable. Elección de $ \tilde O := (O_1, O_2, \dots, O_{n-1}) $ la inversa $ \Sigma^{-1} $ de la matriz de dispersión $ \Sigma $ de $\tilde O $ se calcula. Específicamente, $ \Sigma^{-1} $ resulta tener todas las entradas no diagonales iguales a $ 1 / E_n $ y para $ 1 \le 1 \le n-1$ , $ 1/E_i + 1/E_n $ como el $i$ entrada de la diagonal.
Por último, se demuestra que el estadístico de bondad de ajuste es exactamente igual al suma estandarizada de cuadrados $ \{ ( \tilde O - E (\tilde O)\}^T \Sigma^{-1} \{ ( \tilde O - E (\tilde O)\} $ , que sigue aproximadamente una $ \chi^2_{n-1} $ distribución porque $\forall \: k $ el mapa en ${\mathbb R}^k $ que toma un vector $ \tilde x $ al número real $ ( \tilde x - \tilde a )^T A ( \tilde x - \tilde a ) $ , siempre que $ \tilde a \in {\mathbb R}^k$ y el $k\times k $ matriz $ A $ son fijos, es una función continua, y el suma estandarizada de cuadrados a partir de una exacta $k$ -La distribución normal no singular es $\chi^2_k$ distribuido. Aquí $ n-1 $ se utiliza como $k$ .
Para comprobar la igualdad de la estadística de la prueba con $ \{ ( \tilde O - E (\tilde O)\}^T \Sigma^{-1} \{ ( \tilde O - E (\tilde O)\} $ , tendrá que utilizar los hechos que $ E(O_i) = E_i $ bajo el modelo; y repetidamente que $ \sum_{i=1}^n (O_i-E_i) = N - N = 0 $ .
0 votos
Realmente la distribución chi-cuadrado con grado $k$ es la suma de $k$ variables independientes normalmente distribuidas
2 votos
Respuesta corta: no es así. Tu pregunta tiene un error que, incluso después de corregirlo, no implica automáticamente que el componente al que te refieres tenga una distribución normal. Deberías aclarar las circunstancias en las que crees que se mantiene este resultado.