1 votos

Procedimiento simplificado de Monte Carlo en la prueba de Chi cuadrado

En R, la función chisq.test tiene una opción simulate.p.value. En la página de ayuda se proporciona poca explicación, pero hace referencia a Hope (1968).

¿Podrías ayudarme ofreciéndome una explicación para principiantes de cómo se estiman los valores de p cuando simulate.p.value está establecido en TRUE?

Tengo un entendimiento básico de los procedimientos de Monte Carlo, por lo que no es necesario dar una introducción extensa sobre este tema.

0 votos

¿Has leído y pensado en el documento vinculado? Es probable que obtengas respuestas mejores si puedes señalar un punto específico en el documento o su conexión con chisq.test() que tengas problemas. Tal como está, tu pregunta parece decir "No quiero leer el documento, alguien por favor léalo y explíquemelo", lo cual no es adecuado para CV.

2 votos

@Stephan En realidad, el artículo de Hope no es realmente esclarecedor sobre los detalles de la simulación de valores p de chi-cuadrado; es un artículo bastante general sobre pruebas de hipótesis de Monte Carlo.

4voto

AdamSane Puntos 1825

La idea básica es arreglar los márgenes y simular a partir del conjunto de tablas con esos márgenes.

Considera la tabla 2x2:

  2   1
  0   4

Los márgenes son:

 x   x   3
 x   x   4
 2   5

Las posibles tablas con esos márgenes son:

 0  3     1  2      2  1
 2  2     1  3      0  4

y sus probabilidades bajo la hipótesis de no asociación se pueden calcular (considera la celda superior izquierda, por ejemplo, y será hipergeométrica).

Consecuentemente podemos simular desde esa distribución de tablas $2\times 2$ bajo la hipótesis nula y calcular la distribución de cualquier estadística que deseemos, y así obtener valores p de la manera habitual al muestrear la distribución nula*. El caso para tablas $r\times c$ es una extensión de esto, pero con suerte esto es suficiente para entender la idea. [Hay alguna discusión sobre formas en que se podrían simular tablas $r \times c$ aquí How to simulate effectiveness of treatment in R? y gung da discusión de la situación si no se tienen ambos márgenes fijos]

Nota que en R esta simulación se hace utilizando el algoritmo de Patefield (1981) [1], como se explica en la ayuda. (la función r2dtable simulará por ti, si quisieras verificar el rendimiento del chi-cuadrado frente a alguna otra estadística bajo márgenes fijos).

* también es posible generar todas las tablas (si tus tablas no son demasiado grandes) y obtener una prueba de permutación exacta. Existente algoritmos inteligentes para solo mirar alguna estadística de las tablas en la cola - y hacerlo de manera bastante eficiente - lo que hace factible realizar pruebas exactas para tablas sorprendentemente grandes (al menos para mí, considerando la escala de la explosión combinatoria).

[1] Patefield, W. M. (1981)
"Algoritmo AS159. Un método eficiente para generar tablas r x c con totales de fila y columna dados"
Estadísticas Aplicadas, 30, 91-97.

0 votos

¡Respuesta clara y fácil de leer +1! Gracias. Si me permites hacer una pregunta de seguimiento. ¿En un artículo, cómo te referirías a tal prueba? ¿Una prueba de Chi-cuadrado de permutación?

1 votos

Oh, probablemente así, sí. Si no estuviera tan seguro de que el significado sería claro para una audiencia potencial, podría decir algo como "prueba de permutación usando la estadística de chi-cuadrado con márgenes fijos" y luego usar la frase más corta después. Incluiría una referencia a Patefield si lo hiciera usando las funciones de R.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X