Me gustaría entender el uso de la simulación Monte Carlo en la chisq.test()
en R.
Tengo una variable cualitativa que tiene 128 niveles / clases. El tamaño de mi muestra es de 26 (no he podido muestrear más "individuos"). Así que, obviamente, tendré algunos niveles con 0 "individuos". Pero el hecho es que sólo tengo un número muy pequeño de clases representadas de las 127 posibles. Como he oído que para aplicar la prueba de chi-cuadrado debemos tener al menos 5 individuos en cada nivel (no entiendo del todo la razón de ello), pensé que tenía que utilizar el simulate.p.value
para utilizar la simulación Monte Carlo para estimar la distribución y calcular un valor p. Sin la simulación de Monte Carlo, R me da un valor p < 1e-16
. Con la simulación de Monte Carlo, me da un valor p en 4e-5
.
He intentado calcular el valor p con un vector de 26 unos y 101 ceros, y con la simulación de Monte-Carlo, obtengo un valor p a 1.
¿Es correcto afirmar que, aunque el tamaño de mi muestra sea pequeño en comparación con el número de clases posibles, la distribución observada es tal que es muy poco probable que todas las clases posibles existan con la misma probabilidad (1/127) en la población real?