La tabla de contingencia 2x2 a continuación muestra el número de jueces que han (1) o no han (0) aplicado una cierta ley en sus fallos. Las columnas desglosan estos números en función del nivel de educación de los jueces: estándar o avanzado. La hipótesis (H1) era que los jueces con educación avanzada aplicarían dicha ley con más frecuencia.
Calcular el odds ratio (OR) como medida del tamaño del efecto sugiere que, en esta muestra, un juez con educación avanzada tiene 7.74 veces más probabilidades de aplicar esa ley, en comparación con un juez con educación estándar. Para probar la fiabilidad (significancia estadística) de la estadística OR, calculé el "test exacto" de Fisher, cuyo valor p, como era de esperar dada la alta OR, es muy bajo: p=0.000003.
¿Mi pregunta: la estadística inferencial (test de Fisher) no se ve invalidada por el tamaño de las muestras en los dos subgrupos siendo tan diferentes en las categorías (un total de 738 jueces con educación estándar frente a solo 19 con educación avanzada)? Obviamente, los números tendrían que ser diferentes para que el análisis no sea trivial, pero la cuestión es, ¿hasta qué punto se les permite ser diferentes? ¿No va en contra de las suposiciones del test hacer una inferencia a nivel de población basada en tan pocos sujetos en uno de los dos grupos?
No he visto en la definición del test de Fisher ninguna suposición/limitación con respecto a cuán diferentes se les permite ser a las categorías en cuanto al tamaño de la muestra. Muchas otras estadísticas empleadas en pruebas de hipótesis tienen tales suposiciones, relacionadas por ejemplo con varianzas iguales o distribución normal, lo que aquí podría traducirse en un cierto límite para los tamaños de las subsmuestras (categorías).
(esta pregunta se ha vuelto a publicar con una redacción más clara y concisa)