Supongamos que nuestro modelo es una distribución basada en categorías $A_1, A_2,$ y $A_3$ con probabilidades $P(A_1) = \theta_1 = 1/4,$ $P(A_2) = \theta_2 = 1/4,$ y $P(A_3) = \theta_3 = 1/2.$ Este modelo multinomial es nuestra hipótesis nula.
Supongamos también que tenemos $n$ observaciones con recuentos observados $X_1, X_2, X_3$ en las respectivas categorías. Como aproximación consideramos $X_i$ como $Poisson(\theta_i),$ para $i = 1,2,3=K,$ respectivamente. Las medias de Poisson son $\lambda_i = n\theta_i$ y sus desviaciones son también $\lambda_i = n\theta_i.$ A continuación, los tres normalizados de Poisson son $Z_i = \frac{X_i - \lambda_i}{\sqrt{\lambda_i}}.$ Para un $n,$ el $Z_i$ son aproximadamente estándar normales.
Si el $Z_i$ eran (i) realmente normales y (ii) independientes, nosotros sería tienen
$$Q = \sum_{i=1}^K Z_i^2 = \sum_i \frac{(X_i - \lambda_i)^2}{\lambda_i} \sim Chisq(df=3).$$
Esta variable aleatoria $Q$ es el estadístico de bondad de ajuste chi-cuadrado. La dirección $\lambda_i$ suelen denominarse recuentos "esperados" y los $X_i$ los recuentos "observados". Relevante para su Pregunta es que el $\lambda_i$ en el denominador son, por coincidencia, también las varianzas de Poisson. Así, lo que puede ser un conflicto aparente en la notación no es real.
La falta de independencia se debe a que $\sum_i X_1 = n.$ A través de un argumento que omitiré aquí, esta falta de independencia se tiene en cuenta reduciendo los grados de libertad de $K = 3$ à $K - 1 = 2.$ Se supone que varias reglas de la aproximación de Poisson a la normal con el aumento de la $n$ . (Por ejemplo, algunos autores dicen que todos $K$ de la $\lambda_i$ debe ser superior a 3, los autores más quisquillosos dicen 5).
En la práctica, la estadística $Q$ considerado $Chisq(K-1)$ funciona bastante bien. Se podría decir especialmente bien porque, al probar nuestra hipótesis nula, no estamos nos interesa el ajuste de toda la distribución de $Q$ à $Chisq(K-1)$ pero sobre todo en el ajuste en la cola más allá del percentil 90. No obstante, hay que tener en cuenta que $Q$ hereda la discreción de la $X_i$ y la distribución chi-cuadrado es continua, por lo que exacto acuerdo no es posible.
La simulación que figura a continuación investiga el ajuste del $Q$ a la distribución chi-cuadrado aproximada, utilizando una $n$ que el ajuste podría ser razonablemente dudoso.
m = 10^5; q = numeric(m); th = c(1/4, 1/4, 1/2); n = 25
for (i in 1:m) {
s = sample(1:3, n, repl=T, prob = th)
x = c(sum(s==1), sum(s==2), sum(s==3))
q[i] = sum((x-n*th)^2/(n*th)) }
mean(q > qchisq(.95, 3-1))
## 0.04818
Por tanto, una prueba nominal al nivel del 5% utilizando $Chisq(2)$ tiene nivel de significación del 4,8%. (Entre las 100.000 actuaciones simuladas del experimento, menos de 100 valores distintos de $Q$ se encontraron. El histograma que figura a continuación omite los resultados de aproximadamente el 0,02% de las iteraciones que produjeron valores $Q$ en la cola del extremo derecho).