Esta es una pregunta de seguimiento a lo que escribió Frank Harrell aquí :
Según mi experiencia, el tamaño de muestra necesario para que la distribución t sea suele ser mayor que el tamaño de la muestra disponible. La prueba de Wilcoxon es extremadamente eficaz, como usted ha dicho, y es robusta, así que casi siempre la prefiero a la prueba t.
Si lo he entendido bien, al comparar la ubicación de dos muestras no emparejadas, es preferible utilizar la prueba de suma de rangos de Wilcoxon en lugar de la prueba t no emparejada, si el tamaño de nuestras muestras es pequeño.
¿Existe alguna situación teórica en la que prefiramos la prueba de suma de rangos de Wilcoxon a la prueba t no emparejada, aunque el tamaño de las muestras de los dos grupos sea relativamente grande?
Mi motivación para esta pregunta proviene de la observación de que para una prueba t de una sola muestra, utilizarla para una muestra no tan pequeña de una distribución sesgada producirá un error de tipo I erróneo:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error