1 votos

¿cómo se interpreta la prueba de chi cuadrado para las tablas cruzadas?

Aquí hay una nueva estadística.

Entiendo que uso la prueba de chi cuadrado para poder calcular la probabilidad de que un valor observado se deba al azar frente a un valor esperado. Entiendo que puede describirse como una cuantificación de cuánto difiere el valor observado del esperado.

¿Cómo se aplica eso a las tablas cruzadas?

¿Es una simple cuantificación combinada (por ejemplo, lo que se espera en ambos grupos en una tabla cruzada bidimensional) o dice algo sobre la correlación de los grupos en una tabla cruzada? ¿Qué tiene que ver el grado de libertad con eso?

1voto

BruceET Puntos 7117

Entorno. En una clasificación cruzada con $r$ filas y $c$ columnas, la hipótesis nula habitual para una prueba de chi-cuadrado es que la variable categórica de fila con $r$ niveles es $independent$ de la columna variable categórica con $c$ niveles.

Encontrar los recuentos de células esperados para que coincidan con la "independencia". La tarea consiste en encontrar los recuentos previstos $E_{ij}$ para cada uno de los $rc$ celdas de la tabla, que pueden compararse con los correspondientes recuentos observados $X_{ij},$ para $i = 1, 2, \dots, r$ y $j = 1, 2, \dots, c.$

Supongamos que el recuento total en la fila $i$ es $R_i = \sum_{j=1}^c X_{ij},$ que el recuento total en la columna $j$ es $C_j = \sum_{i=1}^r X_{ij}$ y que el total de todos los $rc$ cuenta en la tabla es $$G = \sum_i \sum_j X_{ij} = \sum_i R_i = \sum_j C_j.$$

Nuestra estimación de la probabilidad del $i$ nivel de la fila es $\hat P_{i} = R_i/G.$ Del mismo modo, nuestra estimación de la probabilidad de la del $j$ El nivel de la variable de columna es $\hat Q_j = C_j/G.$

Entonces, utilizando la independencia asumida en la hipótesis nula nuestra estimación de la probabilidad de caer en la celda $(i,j)$ es el producto $\hat P_{ij} = \hat P_i \hat Q_j = R_i C_j/G^2.$ (La idea es que, bajo independencia, $P_{ij} = P_iQ_j$ . Así que sus estimaciones deberían multiplicarse también).

A partir de esta estimación basada en la independencia $\hat P_{ij},$ obtenemos el número esperado en la celda $(i,j)$ como $\hat \mu_{ij} = E_{ij} = G\hat P_{ij} = R_iC_j/G.$ (Esto es similar a $\mu = np$ para la media binomial).

La estadística chi-cuadrado. Ahora el estadístico de bondad de ajuste chi-cuadrado (para la independencia de las variables categóricas de fila y columna) es el $$T = \sum_i \sum_j \frac{(X_{ij} - E_{ij})^2}{E_{ij}},$$ que tiene aproximadamente una distribución chi-cuadrado con grados de libertad $df = (r-1)(c-1),$ siempre que todas las las medias de las celdas esperadas $E_{ij} > 5.$

Grados de libertad. Para ilustrar la razón por la que $df = (r-1)(c-1),$ Considere un ejemplo sencillo con $r = 2$ y $c = 3$ . La mesa sólo tiene $(r-1)(c-1) = 2$ de la $X_{ij}$ rellenado, junto con los totales marginales.

 j \  i    1   2   3     Total
 -----------------------------
 1        11  23          50
 2                       100           
 -----------------------------
 Total    32  78  40     150

Obsérvese que, dados los totales marginales y estos $df = 2$ es posible rellenar el resto de valores $X_{ij}.$ Son ejemplos como éste los que dan lugar a la terminología terminología "grados de libertad" y la fórmula $df = (r-1)(c-1).$

Adenda: Para ayudarte a practicar las fórmulas, empieza por rellenar que faltan en $X_{ij}$ en la tabla anterior. A continuación, busque algunos $E_{ij}$ s (hacer $not$ redondear a valores enteros). Por último, encuentre la estadística chi-cuadrado (sume los seis contributions ) y hacer la prueba (nivel del 5%) para la independencia. Los resultados de Minitab se pegan a continuación. ¿Cuál es el valor crítico" (de una tabla de chi-sq impresa) para una prueba al nivel del 5%?

 Expected counts are printed below observed counts
 Chi-Square contributions are printed below expected counts

               1      2      3  Total

        1     11     23     16     50
           10.67  26.00  13.33
           0.010  0.346  0.533

        2     21     55     24    100
           21.33  52.00  26.67
           0.005  0.173  0.267

    Total     32     78     40    150

    Chi-Sq = 1.335, DF = 2, P-Value = 0.513

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X