Un tamaño de muestra de 2 y 3 en el Mann-Whitney tiene un nivel de significación mínimo alcanzable del 20% de dos colas, no del 5%. ¿Has reducido a la mitad el nivel de alfa en la tabla para obtener un alfa de dos colas en lugar de duplicarlo?
Para tener un nivel de significación alcanzable de 0,05/3 = 1/60 ( $\frac13\times\frac{1}{20}=\frac{1}{60}$ ) de dos colas, tendría que buscar una de una cola en la tabla de $\alpha=\frac{1}{120}$ .
Vamos a ampliar la tabla, pero por razones de espacio voy a suprimir el "1/". Así que aquí están los recíprocos de los más pequeños alcanzables $\alpha$ (ahora buscamos valores que sean al menos 120):
m: 2 3 4 5 6 7 8
n
2 6
3 10 20
4 15 35 70
5 21 56 126* 252
6 28 84 210 462 924
7 36 120* 330 792 1716 3432
8 45 165 495 1287 3003 6435 12870
El par más pequeño de tamaños de muestra que tiene ese pequeño nivel de significación alcanzable sería (4,5); alternativamente (3,7) también llega allí (justo), al igual que (2,14), aunque eso no está en la tabla anterior.
Si se hicieran 6 comparaciones de este tipo, se necesitaría un alfa de 2 colas de 0,05/6 $\leq$ 1/120 por lo que en esa tabla de una cola necesitarías $\alpha\leq$ 1/240, o $1/\alpha\geq$ 240 que te lleva a (5,5) o (4,7).
Diez comparaciones de este tipo te llevan a (5,6), y así sucesivamente.
Siempre puede comprobar sus cálculos realizando una prueba de Wilcoxon-Mann-Whitney en un par de muestras no superpuestas con los tamaños que ha calculado. Por ejemplo, en R:
> wilcox.test(1:4,5:9)
Wilcoxon rank sum test
data: 1:4 and 5:9
W = 0, p-value = 0.01587
alternative hypothesis: true location shift is not equal to 0
Ten en cuenta que 0,01587 es 2/126 (redondeado), un poco menos de 0,05/3 = 0,01667, por lo que los valores de (4,5) que obtuvimos de la tabla eran correctos.
Sin embargo, si esto es algo más que un ejercicio intelectual (" Por curiosidad, ¿cuál es el tamaño mínimo de la muestra? "), yo estaría mucho más preocupado por poder que los niveles de significación alcanzables. Si está en la fase de planificación, le insto a que considere un cálculo de potencia para un tamaño de efecto mínimo significativo, que seguramente aumentará el tamaño de la muestra necesaria por encima de 4-5.
[Si vas a tener tamaños de muestra tan pequeños, ¿por qué tomar $\alpha=0.05$ ¿en cualquier caso? Con muestras tan pequeñas, su tasa de error de tipo II puede ser tan alta que su tasa de error de tipo I es casi irrelevante en comparación. En realidad, no hay nada especial o útil en el 0,05, aparte de que la gente está acostumbrada a verlo; en muchos casos es demasiado alto, pero si sólo son factibles muestras muy pequeñas, es muy posible que sea demasiado bajo].