@jbowman te ha dado una buena opción. He pensado que podría aportar algo de información respecto a tus preguntas explícitas sobre la idoneidad del $z$ -prueba contra el $\chi^2$ prueba.
$\boldsymbol z$ -prueba:
Hay dos preocupaciones sobre la conveniencia de utilizar el $z$ -prueba, ambas relativas a si la distribución de muestreo asumida es correcta. En primer lugar, la $z$ -utiliza la distribución normal en lugar de la $t$ -lo que implica que las desviaciones estándar se conocen sin error de muestreo. En segundo lugar, la distribución muestral es continua, pero los datos son discretos; como sólo son posibles ciertas combinaciones de datos, sólo son posibles ciertos valores estadísticos de prueba resultantes, que pueden no coincidir con la distribución muestral teórica. (Aquí se trata este tema en el contexto de otras pruebas: Comparación y contraste, valores p, niveles de significación y error de tipo I .)
Consideremos la primera preocupación en un contexto diferente. Si tenemos dos grupos con datos distribuidos normalmente, y queremos ver si las medias son equivalentes, tenemos que calcular tanto las medias como las desviaciones estándar. Ahora sabemos que las medias están sujetas al error de muestreo, por eso tenemos que hacer la prueba en lugar de decir simplemente que estas dos medias muestrales no son idénticas. Sin embargo, nuestras estimaciones de las desviaciones estándar también tienen que estar sujetas a un error de muestreo y tenemos que tener en cuenta este hecho de alguna manera. Cuando lo hacemos, resulta que la estadística de la prueba (una especie de diferencia de medias a escala) se distribuye como $t$ . Si en su lugar utilizáramos la distribución normal (es decir, la $z$ -), significaría que estamos asumiendo que nuestras estimaciones de las desviaciones estándar no tienen errores, es decir, son perfectas. Entonces, ¿por qué el $z$ -¿se puede utilizar en su caso? La razón es que sus datos son binomio (es decir, el número de "aciertos" de un total conocido de "ensayos"), en lugar de lo normal. En el distribución binomial La desviación estándar es una función de la media, por lo que una vez que se ha estimado la media no hay ninguna incertidumbre adicional de la que preocuparse. Por lo tanto, la distribución normal puede utilizarse como modelo de la distribución muestral de la estadística de la prueba.
Aunque utilizar la distribución normal para entender el comportamiento a largo plazo de la estadística de la prueba es técnicamente correcto, surge otro problema. El problema es que la distribución normal es continua, pero como sus datos son discretos, no todos los valores de la distribución teórica pueden encontrarse en su conjunto de datos. (Una vez más, analizo esta cuestión con bastante más detalle en la respuesta del enlace anterior). Afortunadamente, la correspondencia entre los posibles resultados de los datos y la distribución normal teórica de muestreo mejora cuanto más grande sea el conjunto de datos. $N$ . En su caso, independientemente de las verdaderas probabilidades subyacentes, podría tener tanto como todos los aciertos o como ninguno en cada grupo. Eso significa que el número de combinaciones posibles es $91\times 91 = 1,\!729$ que es un montón de posibilidades. Con un conjunto de datos pequeño, puedes encontrarte con algunos de los tipos de problemas que comento en mi respuesta vinculada, pero con $N = 180$ no tienes mucho de qué preocuparte. Creo que el $z$ -la prueba era una opción válida para los investigadores.
$\boldsymbol \chi^2$ -prueba:
Pero ¿qué pasa con el $\chi^2$ -¿prueba? Creo que también es una opción válida, pero no sería mi primera opción. (Permítanme señalar de paso que la segunda preocupación discutida anteriormente - un desajuste entre los datos discretos y una distribución de referencia continua - se aplica igualmente a la $\chi^2$ -prueba como lo hace a la $z$ -prueba, por lo que no hay ninguna ventaja en este caso). El problema con el $\chi^2$ -es que no supone que haya nada especial en los totales de las columnas con respecto a los totales de las filas; ambos se tratan como si pudieran ser otros valores posibles. Sin embargo, esto no refleja con exactitud la configuración experimental. Había 180 personas, y se asignaron 90 a cada grupo. Lo único que variaría realmente entre estudios idénticos repetidos es el número de personas que se resfriaron en cada grupo. La página web $\chi^2$ -prueba trata incorrectamente tanto el número de resfriados como el número de personas en cada grupo como si pudieran variar, pero el $z$ -prueba hace la suposición correcta. Por eso el $z$ -prueba tiene más poder aquí.
Por si sirve de algo, la prueba de permutación sugerida por @jbowman también consigue este aspecto de su diseño correctamente y no sufre el problema de desajuste discreto-continuo. Por lo tanto, es la mejor opción. Pero pensé que te gustaría saber un poco más acerca de cómo el $z$ - y $\chi^2$ -comparar las pruebas en su situación.