4 votos

¿Por qué se utiliza el chi-cuadrado para las tablas de contingencia?

Cuando se comprueba si dos variables categóricas son independientes, es habitual construir una tabla de contingencia y utilizar la prueba de chi-cuadrado. Sin embargo, ¿por qué la distribución chi-cuadrado con k grados de libertad (es decir, la suma de los cuadrados de k variables normales estándar) puede sustituir a las tablas de contingencia con k grados de libertad? ¿Existe algún tipo de prueba que demuestre que están relacionadas? Por lo que veo, la mayoría de los libros de texto de estadística dejan esto sin explicar.

5voto

En una tabla de contingencia la hipótesis nula establece que las variables de las filas y la variable de las columnas son independientes.

Los recuentos de células $X_{ij}$ se suponen distribuidos de forma poisson con media $E_{ij}$ y como son poisson, su varianza también es $E_{ij}$ .

Asintóticamente la distribución de Poisson se aproxima a la distribución normal con media $E_{ij}$ y la desviación estándar con la media $\sqrt{E_{ij}}$ por lo que, asintóticamente $\frac{(X_{ij}-E_{ij})}{\sqrt{E_{ij}}}$ es aproximadamente normal.

Si se elevan al cuadrado las variables normales estándar y se suman estos cuadrados, el resultado es una variable aleatoria chi-cuadrado, por lo que

$\sum_{i,j} \left( \frac{(X_{ij}-E_{ij})}{\sqrt{E_{ij}}} \right)^2$

tiene una distribución (asintótica) chi-cuadrado. La asintótica debe cumplirse y por eso la mayoría de los libros de texto afirman que el resultado de la prueba es válido cuando todos los recuentos esperados de células $E_{ij}$ son mayores que 5, pero eso es sólo una regla general que hace que la aproximación sea ''suficientemente buena''.

2voto

AdamSane Puntos 1825

Consideremos primero un binomio; $X$ y $Y=n-X$ son un par de variables aleatorias; una vez que condicionamos a $n$ , conociendo cualquiera de los dos $X$ o $Y$ te dice la otra. Si consideramos la distribución de $(X,Y)$ para grandes $n$ podemos escribir una aproximación normal (degenerada) "bivariada" para ella (en el sentido de que se encuentra en un subespacio unidimensional $X+Y=n$ ), especificando las medias, varianzas y covarianzas en términos de $n$ y la probabilidad de éxito $\pi$ ( $\mu=(n\pi,n(1-\pi))^\prime$ , $\text{Var}(X)=\text{Var}(Y)=n\pi(1-\pi)$ y $\text{Cov}(X,Y)=-n\pi(1-\pi)$ ).

Si se escribe la aproximación normal ordinaria a la binomial en este caso es muy fácil ver que $Z^2$ en la prueba Z es equivalente al estadístico chi-cuadrado. (De hecho, el estadístico chi-cuadrado $Z^2$ corresponde a (menos dos veces) el exponente en la densidad normal; esto es común a las diversas estadísticas mencionadas).

De forma similar con un multinomio, $X_1,X_2,....,X_k$ tal que $\sum_i X_i =n$ . De nuevo podemos escribir las medias, varianzas y covarianzas entre cada uno de los términos, y mientras tenemos $k$ variados, se sientan en un $k-1$ subconjunto dimensional.

Del mismo modo, considere un $2\times 2$ tabla de contingencia. Si lo consideramos como un par de binomios $(X_1,X_2)$ (que bajo el nulo tienen un común $\pi$ ) entonces podemos trabajar más fácilmente con $X_1/n_1-X_2/n_2$ (como si estuviéramos haciendo la prueba Z para dos proporciones) y generar la aproximación normal para ello; el estadístico chi-cuadrado habitual será equivalente al exponente en la normal (aunque se necesita algo de álgebra para demostrarlo). Sin embargo, de forma más parecida a la forma en que tratamos el chis cuadrado 2x2, podríamos escribir nuestra variable como dos conjuntos de pares $X_1,Y_1,X_2,Y_2$ y aproximarlo por una normal multivariante (aunque las cuatro variables viven de nuevo en un subespacio de dimensión 2). Una vez que estimamos esa normal $\pi$ sin embargo, perdemos un grado adicional de libertad y efectivamente se convierte en univariante de nuevo.

De nuevo podemos extender esto hasta las variantes multinomiales (y un $2\times k$ tabla) y luego a tablas más grandes.

En cada caso, el exponente de la densidad normal aproximada puede escribirse en forma de estadística chi-cuadrado que puede demostrarse que tiene una aproximación normal asimétrica.

Por ejemplo, el $2\times k$ El caso multinomial se discute en la obra de Lehmann Elementos de la teoría de las grandes muestras Sección 5.5, Ejemplo 5.5.5 "El problema multinomial de dos muestras", p. 329 (aunque el estadístico que muestra no se parece a primera vista al estadístico chi-cuadrado -lo escribe en términos de sumas ponderadas de cuadrados de diferencias de proporciones-, se puede demostrar que es equivalente. Si lo comprueban, observen que su $k$ es uno más pequeño que el mío aquí en todo. Al tratar directamente con las diferencias de las proporciones en los pares dentro de la categoría se evita un gran esfuerzo, pero esto no se generaliza al caso de más de dos muestras).

[Alternativamente podemos condicionar la otra dimensión desde el principio, con lo que la celda (1,1) es hipergeométrica, y podemos aplicarle una aproximación normal (las otras celdas son todas a su vez hipergeométricas pero fijas dada la primera y los márgenes), y así sucesivamente para tablas más grandes].

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X