Voy a motivar esta forma intuitiva, e indicar cómo se viene para el caso especial de dos grupos, suponiendo que estamos dispuestos a aceptar la aproximación normal a la binomial.
Esperemos que eso sea suficiente para que usted consiga un buen sentido de por qué funciona como lo hace.
Estamos hablando de la chi-cuadrado de bondad de ajuste de la prueba. Digamos que hay $k$ grupos (que la tiene como $n$, pero hay una razón por la que tienden a preferimos llamarlo $k$).
En el modelo se aplica para esta situación, la cuenta $O_i$, $i=1,2,...,k$ son multinomial.
Deje $N=\sum_{i=1}^k O_i$. La cuenta está condicionada a que la suma de $N$ (excepto en algunos bastante raros casos); y hay un conjunto de probabilidades para cada categoría, $p_i, i=1, 2, \ldots,k$, que se suma a $1$.
Al igual que con el binomio, hay una aproximación asintótica normal para multinomials -- de hecho, si se considera sólo el número en una celda determinada ("en esta categoría o no), sería la binomial. Al igual que con el binomio, las desviaciones de los condes (así como sus covarianzas en la multinomial) son funciones de $N$ e las $p$'s; no estimación de la varianza, por separado.
Es decir, si la cuenta son lo suficientemente grandes, el vector de la cuenta es aproximadamente normal con una media de $E_i=Np_i$. Sin embargo, debido a que la cuenta esté condicionado por $N$, la distribución es degenerado (que existe en un hyperplane de dimensión $k-1$, ya que especificar el $k-1$ de los condes corrige el restante). La varianza-covarianza de la matriz tiene las entradas de la diagonal $Np_i(1-p_i)$ y fuera de la diagonal de elementos $-Np_ip_j$, y es de rango $k-1$ a causa de la degeneración.
Como resultado, para una celda individual $\text{Var}(O_i)=Np_i(1-p_i)$, y podría escribir $z_i = \frac{O_i-E_i}{\sqrt{E_i(1-p_i)}}$. Sin embargo, los términos son dependientes (correlación negativa), por lo que si usted suma los cuadrados de los $z_i$ no tiene un $\chi^2_k$ distribución (como lo sería si fueran independientes estandarizada de las variables). En su lugar se podría, potencialmente, construir un conjunto de $k-1$ variables independientes a partir de la original $k$ que son independientes y siendo de aproximadamente normal (asintóticamente normal). Si nos resumió su (estandarizado) plazas, nos gustaría obtener un $\chi^2_{k-1}$. Hay maneras de construir un conjunto de $k-1$ variables explícitamente, pero, afortunadamente, hay una muy cuidada acceso directo que evita lo que equivale a una cantidad considerable de esfuerzo, y da el mismo resultado (el mismo valor de la estadística) como si nos hubiéramos ido a los problemas.
Considere, por simplicidad, una bondad de ajuste con dos categorías (que ahora es binomial). La probabilidad de estar en la primera celda es $p_1=p$, y en la segunda celda es $p_2=1-p$. Hay $X = O_1$ observaciones en la primera celda, y $N-X=O_2$ en la segunda celda.
La observa en primer lugar el recuento de células, $X$ es asintóticamente $\text{N}(Np,Np(1-p))$. Podemos estandarizar como $z=\frac{X-Np}{\sqrt{Np(1-p)}}$. A continuación, $z^2 = \frac{(X-Np)^2}{Np(1-p)}$ es de aproximadamente $\sim \chi^2_1$ (asintóticamente $\sim \chi^2_1$).
Observe que
$\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} = \frac{[X-Np]^2}{Np}+ \frac{[(N-X)-(N-Np)]^2}{N(1-p)}= \frac{[X-Np]^2}{Np}+ \frac{[X-Np]^2}{N(1-p)}=(X-Np)^2[\frac{1}{Np}+ \frac{1}{N(1-p)}]$.
Pero
$\frac{1}{Np}+ \frac{1}{N(1-p)} =\frac{Np+N(1-p)}{Np.N(1-p)} = \frac{1}{Np(1-p)}$.
Por lo $\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} =\frac{(X-Np)^2}{Np(1-p)}$ $z^2$ empezamos con lo cual asintóticamente será un $\chi^2_1$ variable aleatoria. La dependencia entre las dos células es tal que por medio de buceo por $E_i$ en lugar de $E_i(1-p_i)$ exactamente compensar la dependencia entre los dos, y conseguir el original de la plaza-de-un-aproximadamente-variable aleatoria normal.
El mismo tipo de suma-dependencia es cuidado por el mismo enfoque cuando hay más de dos categorías: por la suma de las $\frac{(O_i-E_i)^2}{E_i}$ en lugar de $\frac{(O_i-E_i)^2}{E_i(1-p_i)}$ $k$ términos, exactamente compensar el efecto de la dependencia, y obtener una suma equivalente a una suma de $k-1$ independiente de las normales.
Hay una variedad de maneras para mostrar el estadístico tiene una distribución asintóticamente $\chi^2_{k-1}$ grandes $k$ (lo que está cubierto en algunos de pregrado de las estadísticas de los cursos, y se puede encontrar en un número de pregrado a nivel de textos), pero no quiero llevar demasiado lejos, más allá del nivel de su pregunta sugiere. De hecho, los cálculos son fáciles de encontrar en las notas en internet, por ejemplo, hay dos diferentes derivaciones en el espacio de unas dos páginas aquí