18 votos

Tablas de contingencia: ¿qué pruebas hacer y cuándo?

Me gustaría ver una extensión de esta discusión del viejo debate entre la prueba de chi-sq y la exacta de Fisher, ampliando un poco el alcance. Hay muchas pruebas para las interacciones en una tabla de contingencia, suficientes para hacer girar mi cabeza. Espero que me expliquen qué prueba debo utilizar y cuándo, y por supuesto una explicación de por qué se debe preferir una prueba a otra.

Mi problema actual es el clásico $n \times m$ pero son bienvenidas las respuestas relativas a una mayor dimensionalidad, así como los consejos para implementar las distintas soluciones en R, al menos, en los casos en los que no es evidente cómo proceder.

A continuación he enumerado todas las pruebas de las que tengo conocimiento; espero que al exponer mis errores se puedan corregir.

  • $\chi^2$ . El viejo recurso. Aquí hay tres opciones principales:

    • La corrección incorporada en R para las tablas de 2x2: "una mitad se resta de todas $|O-E|$ diferencias". ¿Debería hacer esto siempre?
    • " $N-1$ " $\chi^2$ Prueba, no estoy seguro de cómo hacer esto en R.
    • Simulación Monte Carlo. ¿Es esto siempre lo mejor? ¿Por qué R no me da df cuando hago esto?
  • Prueba exacta de Fisher .

    • Tradicionalmente se aconseja cuando se espera que cualquier célula sea <4, pero aparentemente algunos discuten este consejo.
    • ¿Es la suposición (normalmente falsa) de que los márgenes son fijos el mayor problema de esta prueba?
  • Prueba exacta de Barnard

    • Otra prueba exacta, excepto que nunca he oído hablar de ella.
  • Regresión de Poisson

    • Una cosa que siempre me confunde sobre los glms es cómo hacer exactamente estas pruebas de significación, por lo que se agradecería la ayuda al respecto. ¿Es mejor hacer una comparación de modelos anidados? ¿Y una prueba de Wald para un predictor concreto?
    • ¿Debería hacer siempre la regresión de Poisson? ¿Cuál es la diferencia práctica entre esto y una $\chi^2$ ¿prueba?

13voto

Sean Hanley Puntos 2428

Esta es una buena pregunta, pero una gran pregunta. No creo que pueda dar una respuesta completa, pero sí que daré algunas ideas para reflexionar.

En primer lugar, en su punto superior, la corrección a la que se refiere se conoce como La corrección de Yates para la continuidad . El problema es que calculamos un discreto estadística inferencial:
$$ \chi^2=\sum\frac{(O-E)^2}{E} $$
(Es discreta porque, al haber sólo un número finito de instancias representadas en una tabla de contingencia, hay un número finito de posibles valores realizados que puede tomar esta estadística). A pesar de este hecho, se compara con un continuo distribución de referencia ( a saber El $\chi^2$ distribución con grados de libertad $(r-1)(c-1)$ ). Esto conduce necesariamente a un desajuste en algún nivel. Con un conjunto de datos especialmente pequeño, y si algunas celdas tienen valores esperados inferiores a 5, es posible que el valor p sea demasiado pequeño. La corrección de Yates lo ajusta.

Irónicamente, el mismo problema subyacente (desajuste discreto-continuo) puede conducir a valores p demasiado alto . En concreto, el valor p se define convencionalmente como la probabilidad de obtener datos que sean tan extrema o más que los datos observados. Con los datos continuos, se entiende que la probabilidad de obtener cualquier valor exacto es desvanecidamente pequeña, por lo que realmente tenemos la probabilidad de que los datos sean más extremos. Sin embargo, con los datos discretos existe una probabilidad finita de obtener datos iguales a los suyos. Si sólo se calcula la probabilidad de obtener datos más extremos que los suyos, se obtienen valores p nominales demasiado bajos (que conducen a un aumento de los errores de tipo I), pero si se incluye la probabilidad de obtener datos iguales a los suyos, se obtienen valores p nominales demasiado altos (que conducirían a un aumento de los errores de tipo II). Estos hechos impulsan la idea de la valor p medio . Según este enfoque, el valor p es la probabilidad de que los datos sean más extremos que los suyos más medio la probabilidad de los datos es la misma que la suya.

Como usted señala, hay muchas posibilidades para probar los datos de la tabla de contingencia. El tratamiento más completo de los pros y los contras de los distintos enfoques es aquí . Ese documento es específico para las tablas de 2x2, pero aún así puedes aprender mucho sobre las opciones para los datos de las tablas de contingencia leyéndolo.

También creo que vale la pena considerar seriamente los modelos. Las pruebas más antiguas, como la de chi-cuadrado, son rápidas, fáciles y entendidas por mucha gente, pero no permiten comprender los datos de forma tan completa como lo hace la construcción de un modelo adecuado. Si es razonable pensar en las filas [columnas] de su tabla de contingencia como una variable de respuesta, y en las columnas [filas] como variables explicativas / predictoras, un enfoque de modelización resulta bastante fácil. Por ejemplo, si sólo tiene dos filas, puede construir un regresión logística modelo; si hay varias columnas, podría utilizar la codificación de celdas de referencia (codificación ficticia) para construir un modelo de tipo ANOVA. Por otro lado, si tiene más de dos filas, regresión logística multinomial puede utilizarse de la misma manera. Si sus filas tienen un orden intrínseco, regresión logística ordinal daría un rendimiento superior al multinomial. En mi opinión, el modelo log-lineal (regresión de Poisson) es probablemente menos relevante, a menos que se tengan tablas de contingencia con más de dos dimensiones.

Para un tratamiento exhaustivo de estos temas, las mejores fuentes son los libros de Agresti: su tratamiento a gran escala (más riguroso), su libro de introducción (más sencillo, pero aún así completo y muy bueno), o posiblemente también su libro ordinal .

Actualización: Sólo para completar la lista de posibles pruebas, se me ocurre que podemos añadir el prueba de razón de verosimilitud (a menudo llamado $G^2\text{-test}$ '). Lo es:
$$ G^2=\sum O\cdot\text{ln}\left(\frac{O}{E}\right) $$
Esto también se distribuye como un chi-cuadrado, y casi siempre dará la misma decisión. Los valores realizados de las dos estadísticas suelen ser similares, pero ligeramente diferentes. La cuestión de cuál será más potente en una situación determinada es bastante sutil. Tengo entendido que es la opción por defecto por tradición en algunos campos. No abogo necesariamente por su uso en lugar de la prueba tradicional; sólo la enumero para completarla, como digo.

1 votos

Ha sido una gran explicación del problema subyacente, ¡gracias! También me han dicho en el pasado que el texto de Agresti es un gran recurso, así que lo comprobaré.

4voto

mat_geek Puntos 1367

Intentaré responder a algunas de sus preguntas lo mejor que pueda desde mi perspectiva. En primer lugar, la prueba de Fisher-Irwin no es más que otro nombre para la prueba exacta de Fisher. Excepto por el hecho de que a veces es computacionalmente intenso, generalmente prefiero utilizar la prueba de Fisher. Si hay algún problema con esta prueba es el condicionamiento de los totales marginales. La belleza de la prueba es que bajo la hipótesis nula el conjunto de tablas de contingencia con los mismos totales marginales que la tabla observada tiene una distribución hipergeométrica. Algunas personas argumentan que no ven la razón de restringir la consideración a las tablas con los mismos totales marginales.

La prueba de chi-cuadrado de Pearson se utiliza con mucha frecuencia para comprobar la asociación en las tablas de contingencia. Como muchas otras pruebas, es aproximada, por lo que el nivel de significación no siempre es preciso. Cochran demostró que en muestras pequeñas, cuando algunas celdas son muy escasas (por ejemplo, con menos de 5 casos en algunas celdas), la aproximación será pobre.

Hay muchas otras pruebas aproximadas. Normalmente, al aplicar la prueba de Fisher con SAS, obtengo los resultados de todas estas pruebas y suelen dar casi los mismos resultados. Pero la prueba de Fisher es siempre exacta condicionada a los totales marginales.

En cuanto a la regresión de Poisson, es un modelo que relaciona las variables categóricas con los totales de las celdas. Como cualquier modelo, depende de un conjunto de supuestos. La más importante es que los recuentos de células sigan una distribución de Poisson, lo que significa que el número medio de recuentos es igual a su varianza. Esto no suele ser cierto para las distribuciones de recuento de células. En caso de sobredispersión (varianza mayor que la media), un modelo binomial negativo podría ser más apropiado.

0 votos

"La prueba de Fisher-Irwin es sólo otro nombre para la prueba exacta de Fisher" ... aha, esto hace este comentario menos confuso para mí, ¡gracias!

3 votos

Tu respuesta no ha reducido realmente mi confusión sobre cuándo hacer estas cosas. Supongo que una de las cosas que esperaba escuchar es hasta qué punto los problemas con chi^2 son solucionables por simulación monte carlo o correcciones, etc; o hasta qué punto puede ser sustituido por glms. Así que voy a dejar esto abierto por un tiempo para ver si puedo conseguir más mordiscos. Pero si nadie interviene después de un rato, aceptaré tu respuesta.

0 votos

Para Fisher y Chi-cuadrado creo que te dije cuando puedes usar chi-cuadrado. Si aceptas la idea de Fisher de que siempre debes condicionar los totales marginales, la prueba de Fisher es siempre aplicable. Pero si no aceptas eso entonces supongo que tendrías que elegir una prueba incondicional. En cuanto a la otra batería de pruebas disponibles, no sé nada sobre sus propiedades y, por tanto, no puedo aconsejarle cuándo utilizarlas. Por experiencia, he visto casos en los que ha importado porque los resultados suelen coincidir.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X