La fórmula del estadístico de la prueba Chi-cuadrado es la siguiente:
χ2=n∑i=1(Oi−Ei)2Eiχ2=n∑i=1(Oi−Ei)2Ei
donde OiOi son los datos observados, y EiEi se espera.
Sólo tengo curiosidad por saber por qué esto sigue al χ2χ2 ¿Distribución?
La fórmula del estadístico de la prueba Chi-cuadrado es la siguiente:
χ2=n∑i=1(Oi−Ei)2Eiχ2=n∑i=1(Oi−Ei)2Ei
donde OiOi son los datos observados, y EiEi se espera.
Sólo tengo curiosidad por saber por qué esto sigue al χ2χ2 ¿Distribución?
Es Oi−EiEiOi−EiEi que sigue una distribución normal y no su raíz cuadrada. Sólo estamos asumiendo que los errores relativos son gaussianos. Es sólo una suposición. El cuadrado de la variable gaussiana ~ Distribución Gamma (Chi-cuadrado). La suma de estas variables al cuadrado sigue una Chi-cuadrado con nn grados de libertad. Ahora bien, si nos fijamos en los valores absolutos, es decir |Oi−EiEi|∣∣Oi−EiEi∣∣ tendríamos una distribución seminormal y la suma ∑ni=1|Oi−EiEi|∑ni=1∣∣Oi−EiEi∣∣ acabaría convergiendo a una gaussiana, aunque a diferencia de la Chi-cuadrado, sin una distribución claramente estándar para nn pequeño.
Gracias por su amable ayuda. Es mi error decir √Oi−EiEi√Oi−EiEi sigue una distribución normal, y la raíz cuadrada debe ser eliminada.
Es correcto decir que la estadística de "bondad de ajuste" sigue la distribución chi-cuadrado asintóticamente no exactamente . Esto significa que la estadística se encuentra en cualquier intervalo con una probabilidad cercana o aproximadamente igual a la de un χ2n−1χ2n−1 variable que se encuentra en el mismo intervalo, proporcionó el tamaño de la muestra NN es grande. Aquí estoy asumiendo que el EiEi s son las frecuencias esperadas que surgen de un completamente especificado modelo y no hay estimación de parámetros; de lo contrario, la f.d. cambiaría.
Una prueba clara y sencilla, así como otra menos sencilla, se puede encontrar en http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf . La más sencilla es la siguiente: hay que observar que bajo el modelo, (O1,O2,…,On)(O1,O2,…,On) tiene una distribución multinomial con parámetros NN y probabilidades de las células (E1N,E2N,…,EnN)(E1N,E2N,…,EnN) .
Esto significa que cuando NN es grande, (O1,O2,…,On)(O1,O2,…,On) tiene aproximadamente un nn -distribución normal variable, pero una singular uno, ya que ∑Ni=1Oi≡N∑Ni=1Oi≡N es no aleatorio . Otra forma de interpretar la singularidad es ver que los parámetros de la distribución son el vector de la media y la matriz de dispersión y esta última es singular.
Sin embargo, cualquier n−1n−1 de O1,O2,…,OnO1,O2,…,On tienen aproximadamente un no-singular (n−1)(n−1) -distribución normal variable. Elección de ˜O:=(O1,O2,…,On−1)~O:=(O1,O2,…,On−1) la inversa Σ−1Σ−1 de la matriz de dispersión ΣΣ de ˜O~O se calcula. Específicamente, Σ−1Σ−1 resulta tener todas las entradas no diagonales iguales a 1/En1/En y para 1≤1≤n−11≤1≤n−1 , 1/Ei+1/En1/Ei+1/En como el ii entrada de la diagonal.
Por último, se demuestra que el estadístico de bondad de ajuste es exactamente igual al suma estandarizada de cuadrados {(˜O−E(˜O)}TΣ−1{(˜O−E(˜O)}{(~O−E(~O)}TΣ−1{(~O−E(~O)} , que sigue aproximadamente una χ2n−1χ2n−1 distribución porque ∀k∀k el mapa en Rk que toma un vector ˜x al número real (˜x−˜a)TA(˜x−˜a) , siempre que ˜a∈Rk y el k×k matriz A son fijos, es una función continua, y el suma estandarizada de cuadrados a partir de una exacta k -La distribución normal no singular es χ2k distribuido. Aquí n−1 se utiliza como k .
Para comprobar la igualdad de la estadística de la prueba con {(˜O−E(˜O)}TΣ−1{(˜O−E(˜O)} , tendrá que utilizar los hechos que E(Oi)=Ei bajo el modelo; y repetidamente que ∑ni=1(Oi−Ei)=N−N=0 .
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
0 votos
Realmente la distribución chi-cuadrado con grado kk es la suma de kk variables independientes normalmente distribuidas
2 votos
Respuesta corta: no es así. Tu pregunta tiene un error que, incluso después de corregirlo, no implica automáticamente que el componente al que te refieres tenga una distribución normal. Deberías aclarar las circunstancias en las que crees que se mantiene este resultado.