De la discusión, asumo que B y C son disjuntos. En la medida en que B y C pueden tomarse como muestras de poblaciones más grandes, parece razonable hacer una prueba chi-cuadrado en B y C.
Con algunos reordenamientos de las categorías de respuesta, puse todos sus datos en la tabla de contingencia TBL
.
a = c(3361, 28, 21, 41, 9, 67, 1448)
b = c(1101, 9, 10, 12, 6, 21, 435)
c = c( 84, 3, 1, 0, 1, 3, 29)
TBL = rbind(a,b,c); TBL
TBL = rbind(a,b,c); TBL
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
a 3361 28 21 41 9 67 1448
b 1101 9 10 12 6 21 435
c 84 3 1 0 1 3 29
Restringiendo la atención a B y C, tenemos
TABbc = TBL[c(2,3),]; TABbc
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
b 1101 9 10 12 6 21 435
c 84 3 1 0 1 3 29
Una prueba estándar de chi-cuadrado tropieza con dificultades debido a los pequeños recuentos.
chisq.test(TABbc)
Pearson's Chi-squared test
data: TABbc
X-squared = 8.9769, df = 6, p-value = 0.1749
Warning message:
In chisq.test(TABbc) :
Chi-squared approximation may be incorrect
Tal y como se implementa en R, es posible simular un valor P más valor P más útil, que no rechaza la hipótesis nula de que las proporciones en las distintas categorías de respuesta son iguales.
chisq.test(TABbc, sim=T)
Pearson's Chi-squared test
with simulated p-value
(based on 2000 replicates)
data: TABbc
X-squared = 8.9769, df = NA, p-value = 0.1689
Un enfoque más tradicional es colapsar la tabla para obtener menos celdas con recuentos mayores.
El motivo del mensaje de advertencia es que varios de los archivos recuentos previstos (calculados a partir de los totales de filas y columnas, suponiendo que que la hipótesis nula es cierta) son inferiores a $5,$ así que que el estadístico chi-cuadrado puede no tener aproximadamente una distribución chi-cuadrado. Los recuentos esperados son los siguientes son los recuentos pequeños de las columnas 2-6 los que causan la mayoría de los problemas.
hisq.test(TABbc)$exp
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
b 1101.39359 11.1533528 10.2239067 11.1533528 6.5061224 22.306706 431.26297
c 83.60641 0.8466472 0.7760933 0.8466472 0.4938776 1.693294 32.73703
Warning message:
In chisq.test(TABbc) : Chi-squared approximation may be incorrect
c1 = c( 84, 3+ 1+ 0+ 1, 3, 29)
TBL1 = cbind(a1,b1,c1)
TBL1
a1 b1 c1
[1,] 3361 1101 84
[2,] 99 37 5
[3,] 67 21 3
[4,] 1448 435 29
chisq.test(TBL1[c(2,3),])
Pearson's Chi-squared test
data: TBL1[c(2, 3), ]
X-squared = 0.32154, df = 2, p-value = 0.8515
Warning message:
In chisq.test(TBL1[c(2, 3), ]) :
Chi-squared approximation may be incorrect
Seguimos recibiendo un mensaje de advertencia, pero esta vez sólo uno de los archivos recuentos esperados está por debajo de $5,$ pero no por debajo de $3.$ que muchos a muchos estadísticos les parecería suficiente.
chisq.test(TBL1[c(2,3),])$exp
a1 b1 c1
[1,] 100.88793 35.25 4.862069
[2,] 65.11207 22.75 3.137931
Warning message:
In chisq.test(TBL1[c(2, 3), ]) :
Chi-squared approximation may be incorrect
El resultado final es que no encontramos diferencias significativas entre las respuestas de los grupos A y B.