1 votos

¿Relación entre la prueba de bondad de ajuste chi-cuadrado y la distribución chi-cuadrado?

¿Alguien puede explicar la relación entre una prueba de bondad de ajuste Chi-cuadrado y la distribución Chi-cuadrado? Una tiene el valor esperado en el denominador y la otra tiene la varianza en el denominador, pero todo lo que encuentro lo ignora.

La mayoría de las explicaciones sobre la bondad del ajuste utilizan el valor de la expectativa en el denominador (como en el enlace siguiente) y luego utilizan la varianza cuando hablan de la distribución chi-cuadrado independientemente de las pruebas de bondad del ajuste. http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm

Pero entonces éste utiliza la varianza en el denominador para la bondad de las pruebas de ajuste.... http://maxwell.ucsc.edu/~drip/133/ch4.pdf

(Leo este post pero no era realmente útil).

2voto

BruceET Puntos 7117

Supongamos que nuestro modelo es una distribución basada en categorías $A_1, A_2,$ y $A_3$ con probabilidades $P(A_1) = \theta_1 = 1/4,$ $P(A_2) = \theta_2 = 1/4,$ y $P(A_3) = \theta_3 = 1/2.$ Este modelo multinomial es nuestra hipótesis nula.

Supongamos también que tenemos $n$ observaciones con recuentos observados $X_1, X_2, X_3$ en las respectivas categorías. Como aproximación consideramos $X_i$ como $Poisson(\theta_i),$ para $i = 1,2,3=K,$ respectivamente. Las medias de Poisson son $\lambda_i = n\theta_i$ y sus desviaciones son también $\lambda_i = n\theta_i.$ A continuación, los tres normalizados de Poisson son $Z_i = \frac{X_i - \lambda_i}{\sqrt{\lambda_i}}.$ Para un $n,$ el $Z_i$ son aproximadamente estándar normales.

Si el $Z_i$ eran (i) realmente normales y (ii) independientes, nosotros sería tienen

$$Q = \sum_{i=1}^K Z_i^2 = \sum_i \frac{(X_i - \lambda_i)^2}{\lambda_i} \sim Chisq(df=3).$$

Esta variable aleatoria $Q$ es el estadístico de bondad de ajuste chi-cuadrado. La dirección $\lambda_i$ suelen denominarse recuentos "esperados" y los $X_i$ los recuentos "observados". Relevante para su Pregunta es que el $\lambda_i$ en el denominador son, por coincidencia, también las varianzas de Poisson. Así, lo que puede ser un conflicto aparente en la notación no es real.

La falta de independencia se debe a que $\sum_i X_1 = n.$ A través de un argumento que omitiré aquí, esta falta de independencia se tiene en cuenta reduciendo los grados de libertad de $K = 3$ à $K - 1 = 2.$ Se supone que varias reglas de la aproximación de Poisson a la normal con el aumento de la $n$ . (Por ejemplo, algunos autores dicen que todos $K$ de la $\lambda_i$ debe ser superior a 3, los autores más quisquillosos dicen 5).

En la práctica, la estadística $Q$ considerado $Chisq(K-1)$ funciona bastante bien. Se podría decir especialmente bien porque, al probar nuestra hipótesis nula, no estamos nos interesa el ajuste de toda la distribución de $Q$ à $Chisq(K-1)$ pero sobre todo en el ajuste en la cola más allá del percentil 90. No obstante, hay que tener en cuenta que $Q$ hereda la discreción de la $X_i$ y la distribución chi-cuadrado es continua, por lo que exacto acuerdo no es posible.

La simulación que figura a continuación investiga el ajuste del $Q$ a la distribución chi-cuadrado aproximada, utilizando una $n$ que el ajuste podría ser razonablemente dudoso.

 m = 10^5;  q = numeric(m);  th = c(1/4, 1/4, 1/2);  n = 25
 for (i in 1:m) {
   s = sample(1:3, n, repl=T, prob = th)
   x = c(sum(s==1), sum(s==2), sum(s==3))
   q[i] = sum((x-n*th)^2/(n*th)) }
 mean(q > qchisq(.95, 3-1))
 ##   0.04818 

Por tanto, una prueba nominal al nivel del 5% utilizando $Chisq(2)$ tiene nivel de significación del 4,8%. (Entre las 100.000 actuaciones simuladas del experimento, menos de 100 valores distintos de $Q$ se encontraron. El histograma que figura a continuación omite los resultados de aproximadamente el 0,02% de las iteraciones que produjeron valores $Q$ en la cola del extremo derecho).

enter image description here

0voto

FSHO Puntos 1

Esta pregunta tiene respuesta aquí , que a su vez es una referencia a aquí

La prueba ilustra cómo la restricción entre los K $Z^2$ (suma de observaciones = N), implica que no son independientes, pero pueden transformarse en K-1 variables aleatorias normales estándar independientes (todas en el límite). En otras palabras, el uso de la media en lugar de la varianza en los denominadores viene acompañado de la reducción del número de grados de libertad.

Comentario sobre la respuesta anterior : La respuesta anterior dice que el recuento de contenedores se puede aproximar como Poisson, por lo que la media es igual a la var. Pero esa aproximación es para n grande, p pequeño. En realidad es binomial donde la media no es igual a var: media = np, var = np(1-p), donde, de nuevo para p pequeño, var = np = media.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X