Creo (como se menciona en los comentarios) que una prueba de hipótesis no responde realmente a la pregunta que dices que te interesa. (También carece de potencia si alguno de los factores está ordenado).
La cuestión es que "no es tan diferente" se refiere a una pregunta sobre el tamaño del efecto (¿cuán diferentes son?), no a una prueba de hipótesis ("¿es nuestra muestra lo suficientemente grande como para recoger incluso las diferencias sin importancia?").
Usted dice que tiene tamaños de muestra muy grandes. Esto hará que rechaces como diferentes distribuciones que son bastante similares (ya que tendrás suficiente potencia para captar pequeñas diferencias). ¿Es eso lo que realmente quieres hacer? ¿O prefieres poder decir "en realidad, tienen una distribución bastante similar" cuando ese es el caso?
La respuesta directa a la pregunta es que se utiliza table
en el par de factores que desea probar (por ejemplo, Grupo y raza) y luego utilizarlo como entrada para chisq.test
Por ejemplo
# make up some data
set.seed(32892917)
mydata <- data.frame(group=as.factor(sample(1:5,199,replace=TRUE)),
race=as.factor(sample(1:3,199,replace=TRUE)))
# look at the table:
(mytab <- with(mydata,table(group,race)) )
race
group 1 2 3
1 16 19 11
2 14 15 13
3 9 14 20
4 12 13 11
5 11 11 10
(Observará que cada grupo tiene un tamaño diferente, por ejemplo, el grupo 1 tiene 46 personas, el grupo 5 tiene 32)
# do the chi-square
chisq.test(mytab)
Pearson's Chi-squared test
data: mytab
X-squared = 6.0928, df = 8, p-value = 0.6368