Estoy probando la independencia en un $N \times M$ tabla de contingencia. No sé si el Prueba G o la prueba de chi-cuadrado de Pearson es mejor. El tamaño de la muestra es de cientos, pero hay algunos recuentos de células bajos. Como se indica en el Página de Wikipedia la aproximación a la distribución chi-cuadrado es mejor para la prueba G que para la prueba chi-cuadrado de Pearson. Pero estoy utilizando la simulación de Monte Carlo para calcular el valor p, así que ¿hay alguna diferencia entre estas dos pruebas?
Respuestas
¿Demasiados anuncios?Son asintóticamente iguales. Sólo son formas diferentes de llegar a la misma idea. Más concretamente, la prueba chi-cuadrado de Pearson es una prueba de puntuación, mientras que la prueba G es una prueba de razón de verosimilitud. Para entender mejor estas ideas, puede ayudarte leer mi respuesta aquí: ¿Por qué mis valores p difieren entre el resultado de la regresión logística, la prueba de chi-cuadrado y el intervalo de confianza para la OR? Para responder a su pregunta directa, si está calculando el valor p mediante una simulación de Montecarlo, no debería importar; podría utilizar el que le resulte más conveniente. Tenga en cuenta que no hay ningún problema con los recuentos bajos de células, sólo con los (potencialmente) bajos esperado es posible tener recuentos bajos de células y tener recuentos esperados que estén bien. Además, ni los recuentos reales bajos ni los recuentos esperados bajos importan cuando el valor p se determina por simulación.
(Por si sirve de algo, yo probablemente utilizaría la chi-cuadrado de Pearson, porque R tiene una función conveniente para eso que incluye la opción de simular el valor p).
La prueba chi-cuadrado y la prueba G suelen producir resultados similares. Pero lo más importante es que elijas una de las dos pruebas y te quedes con ella, no sólo para la prueba mencionada, sino para futuras pruebas en el transcurso de tu investigación. Es aconsejable porque si intenta utilizar ambas pruebas indistintamente, es muy probable que aumente la posibilidad de obtener falsos positivos.
Echa un vistazo a Rfast. https://cran.r-project.org/web/packages/Rfast/index.html Los comandos correspondientes son g2Test_univariante(datos, dc) g2Test_univariate_perm(datos, dc, nperm) Los cálculos son extremadamente rápidos. Y en general prefiero la prueba G^2 ya que la Chi-cuadrado es una aproximación a ella.