Entorno. En una clasificación cruzada con $r$ filas y $c$ columnas, la hipótesis nula habitual para una prueba de chi-cuadrado es que la variable categórica de fila con $r$ niveles es $independent$ de la columna variable categórica con $c$ niveles.
Encontrar los recuentos de células esperados para que coincidan con la "independencia". La tarea consiste en encontrar los recuentos previstos $E_{ij}$ para cada uno de los $rc$ celdas de la tabla, que pueden compararse con los correspondientes recuentos observados $X_{ij},$ para $i = 1, 2, \dots, r$ y $j = 1, 2, \dots, c.$
Supongamos que el recuento total en la fila $i$ es $R_i = \sum_{j=1}^c X_{ij},$ que el recuento total en la columna $j$ es $C_j = \sum_{i=1}^r X_{ij}$ y que el total de todos los $rc$ cuenta en la tabla es $$G = \sum_i \sum_j X_{ij} = \sum_i R_i = \sum_j C_j.$$
Nuestra estimación de la probabilidad del $i$ nivel de la fila es $\hat P_{i} = R_i/G.$ Del mismo modo, nuestra estimación de la probabilidad de la del $j$ El nivel de la variable de columna es $\hat Q_j = C_j/G.$
Entonces, utilizando la independencia asumida en la hipótesis nula nuestra estimación de la probabilidad de caer en la celda $(i,j)$ es el producto $\hat P_{ij} = \hat P_i \hat Q_j = R_i C_j/G^2.$ (La idea es que, bajo independencia, $P_{ij} = P_iQ_j$ . Así que sus estimaciones deberían multiplicarse también).
A partir de esta estimación basada en la independencia $\hat P_{ij},$ obtenemos el número esperado en la celda $(i,j)$ como $\hat \mu_{ij} = E_{ij} = G\hat P_{ij} = R_iC_j/G.$ (Esto es similar a $\mu = np$ para la media binomial).
La estadística chi-cuadrado. Ahora el estadístico de bondad de ajuste chi-cuadrado (para la independencia de las variables categóricas de fila y columna) es el $$T = \sum_i \sum_j \frac{(X_{ij} - E_{ij})^2}{E_{ij}},$$ que tiene aproximadamente una distribución chi-cuadrado con grados de libertad $df = (r-1)(c-1),$ siempre que todas las las medias de las celdas esperadas $E_{ij} > 5.$
Grados de libertad. Para ilustrar la razón por la que $df = (r-1)(c-1),$ Considere un ejemplo sencillo con $r = 2$ y $c = 3$ . La mesa sólo tiene $(r-1)(c-1) = 2$ de la $X_{ij}$ rellenado, junto con los totales marginales.
j \ i 1 2 3 Total
-----------------------------
1 11 23 50
2 100
-----------------------------
Total 32 78 40 150
Obsérvese que, dados los totales marginales y estos $df = 2$ es posible rellenar el resto de valores $X_{ij}.$ Son ejemplos como éste los que dan lugar a la terminología terminología "grados de libertad" y la fórmula $df = (r-1)(c-1).$
Adenda: Para ayudarte a practicar las fórmulas, empieza por rellenar que faltan en $X_{ij}$ en la tabla anterior. A continuación, busque algunos $E_{ij}$ s (hacer $not$ redondear a valores enteros). Por último, encuentre la estadística chi-cuadrado (sume los seis contributions
) y hacer la prueba (nivel del 5%) para la independencia. Los resultados de Minitab se pegan a continuación. ¿Cuál es el valor crítico" (de una tabla de chi-sq impresa) para una prueba al nivel del 5%?
Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
1 2 3 Total
1 11 23 16 50
10.67 26.00 13.33
0.010 0.346 0.533
2 21 55 24 100
21.33 52.00 26.67
0.005 0.173 0.267
Total 32 78 40 150
Chi-Sq = 1.335, DF = 2, P-Value = 0.513