Esta es una buena pregunta, pero una gran pregunta. No creo que pueda dar una respuesta completa, pero sí que daré algunas ideas para reflexionar.
En primer lugar, en su punto superior, la corrección a la que se refiere se conoce como La corrección de Yates para la continuidad . El problema es que calculamos un discreto estadística inferencial:
$$ \chi^2=\sum\frac{(O-E)^2}{E} $$
(Es discreta porque, al haber sólo un número finito de instancias representadas en una tabla de contingencia, hay un número finito de posibles valores realizados que puede tomar esta estadística). A pesar de este hecho, se compara con un continuo distribución de referencia ( a saber El $\chi^2$ distribución con grados de libertad $(r-1)(c-1)$ ). Esto conduce necesariamente a un desajuste en algún nivel. Con un conjunto de datos especialmente pequeño, y si algunas celdas tienen valores esperados inferiores a 5, es posible que el valor p sea demasiado pequeño. La corrección de Yates lo ajusta.
Irónicamente, el mismo problema subyacente (desajuste discreto-continuo) puede conducir a valores p demasiado alto . En concreto, el valor p se define convencionalmente como la probabilidad de obtener datos que sean tan extrema o más que los datos observados. Con los datos continuos, se entiende que la probabilidad de obtener cualquier valor exacto es desvanecidamente pequeña, por lo que realmente tenemos la probabilidad de que los datos sean más extremos. Sin embargo, con los datos discretos existe una probabilidad finita de obtener datos iguales a los suyos. Si sólo se calcula la probabilidad de obtener datos más extremos que los suyos, se obtienen valores p nominales demasiado bajos (que conducen a un aumento de los errores de tipo I), pero si se incluye la probabilidad de obtener datos iguales a los suyos, se obtienen valores p nominales demasiado altos (que conducirían a un aumento de los errores de tipo II). Estos hechos impulsan la idea de la valor p medio . Según este enfoque, el valor p es la probabilidad de que los datos sean más extremos que los suyos más medio la probabilidad de los datos es la misma que la suya.
Como usted señala, hay muchas posibilidades para probar los datos de la tabla de contingencia. El tratamiento más completo de los pros y los contras de los distintos enfoques es aquí . Ese documento es específico para las tablas de 2x2, pero aún así puedes aprender mucho sobre las opciones para los datos de las tablas de contingencia leyéndolo.
También creo que vale la pena considerar seriamente los modelos. Las pruebas más antiguas, como la de chi-cuadrado, son rápidas, fáciles y entendidas por mucha gente, pero no permiten comprender los datos de forma tan completa como lo hace la construcción de un modelo adecuado. Si es razonable pensar en las filas [columnas] de su tabla de contingencia como una variable de respuesta, y en las columnas [filas] como variables explicativas / predictoras, un enfoque de modelización resulta bastante fácil. Por ejemplo, si sólo tiene dos filas, puede construir un regresión logística modelo; si hay varias columnas, podría utilizar la codificación de celdas de referencia (codificación ficticia) para construir un modelo de tipo ANOVA. Por otro lado, si tiene más de dos filas, regresión logística multinomial puede utilizarse de la misma manera. Si sus filas tienen un orden intrínseco, regresión logística ordinal daría un rendimiento superior al multinomial. En mi opinión, el modelo log-lineal (regresión de Poisson) es probablemente menos relevante, a menos que se tengan tablas de contingencia con más de dos dimensiones.
Para un tratamiento exhaustivo de estos temas, las mejores fuentes son los libros de Agresti: su tratamiento a gran escala (más riguroso), su libro de introducción (más sencillo, pero aún así completo y muy bueno), o posiblemente también su libro ordinal .
Actualización: Sólo para completar la lista de posibles pruebas, se me ocurre que podemos añadir el prueba de razón de verosimilitud (a menudo llamado $G^2\text{-test}$ '). Lo es:
$$ G^2=\sum O\cdot\text{ln}\left(\frac{O}{E}\right) $$
Esto también se distribuye como un chi-cuadrado, y casi siempre dará la misma decisión. Los valores realizados de las dos estadísticas suelen ser similares, pero ligeramente diferentes. La cuestión de cuál será más potente en una situación determinada es bastante sutil. Tengo entendido que es la opción por defecto por tradición en algunos campos. No abogo necesariamente por su uso en lugar de la prueba tradicional; sólo la enumero para completarla, como digo.