He leído este y este y entiendo de dónde viene la distribución normal estándar al cuadrado. También entiendo por qué df = (r-1)(c-1). Pero no entiendo por qué sumo las cuatro celdas (cuatro normales estándar al cuadrado) y comparo este valor con la distribución de una sola normal estándar al cuadrado.
Respuesta
¿Demasiados anuncios?He aquí un tipo de prueba chi-cuadrado basada en un $2 \times 2$ mesa. Tenemos 350 mujeres y 320 hombres seleccionados al azar entre la población de una ciudad. Queremos saber si la probabilidad de tener un título universitario es la misma en los dos grupos.
Sea $p_w$ y $p_m$ son las probabilidades respectivas. Bajo la hipótesis nula $p_w = p_m.$ Supongamos que ambas probabilidades son $1/5.$
Podemos utilizar distribuciones binomiales para simular datos. A continuación se muestra cómo simular datos para una única prueba chi-cuadrado (utilizando el parámetro cor=F
para evitar la corrección de continuidad de Yates, que no utiliza exactamente un estadístico chi-cuadrado).
set.seed(310)
x = rbinom(1, 350, 1/5)
y = rbinom(1, 320, 1/5)
DTA = rbind(c(x, 350-x), c(y, 320-y))
DTA
[,1] [,2] # 2 x 2 table
[1,] 54 296
[2,] 71 249
chisq.test(DTA, cor=F)
Pearson's Chi-squared test
data: DTA
X-squared = 1.5776, df = 1, p-value = 0.2091
A continuación se muestra cómo obtener estadísticos chi-cuadrado a partir de 100.000 pruebas de este tipo:
set.seed(2019)
m = 10^5; q = numeric(m)
for(i in 1:m) {
x = rbinom(1, 350, 1/5); y = rbinom(1, 320, 1/5)
DTA = rbind(c(x, 350-x), c(y, 320-y))
q[i] = chisq.test(DTA, cor=F)$stat
}
mean(q); var(q)
[1] 0.9990056 # aprx E(Q) = 1
[1] 2.002622 # aprx Var(Q) = 2
lbl = "Simulated Chi-sq Statistics with CHISQ(1) Density"
hist(q, prob=T, br=40, col="skyblue2", main=lbl)
curve(dchisq(x,1), add=T, lwd=2, col="red", n=1001)
Bajo la hipótesis nula de que las dos probabilidades son iguales, el estadístico chi-cuadrado $Q$ ( X-squared
en la salida) tiene casi la distribución $\mathsf{Chisq}(1),$ cuya media es $1$ y la varianza es $2.$
La figura siguiente muestra un histograma de los 100.000 simulados simulados de $Q$ junto con la función de densidad de $\mathsf{Chisq}(1).$