26 votos

¿Cuándo utilizar la prueba de suma de rangos de Wilcoxon en lugar de la prueba t no emparejada?

Esta es una pregunta de seguimiento a lo que escribió Frank Harrell aquí :

Según mi experiencia, el tamaño de muestra necesario para que la distribución t sea suele ser mayor que el tamaño de la muestra disponible. La prueba de Wilcoxon es extremadamente eficaz, como usted ha dicho, y es robusta, así que casi siempre la prefiero a la prueba t.

Si lo he entendido bien, al comparar la ubicación de dos muestras no emparejadas, es preferible utilizar la prueba de suma de rangos de Wilcoxon en lugar de la prueba t no emparejada, si el tamaño de nuestras muestras es pequeño.

¿Existe alguna situación teórica en la que prefiramos la prueba de suma de rangos de Wilcoxon a la prueba t no emparejada, aunque el tamaño de las muestras de los dos grupos sea relativamente grande?

Mi motivación para esta pregunta proviene de la observación de que para una prueba t de una sola muestra, utilizarla para una muestra no tan pequeña de una distribución sesgada producirá un error de tipo I erróneo:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

25voto

Uri Puntos 111

Permítanme traer de vuelta a nuestra discusión en los comentarios a este tu pregunta. La prueba de rangos de Wilcoxon es equivalente a la prueba U de Mann-Whitney (y su extensión directa para más de dos muestras se denomina prueba de Kruskal-Wallis). Puede ver en Wikipedia así como en este texto que Mann-Whitney (o Kruskal-Wallis) generalmente no compara medias ni medianas. Compara la prevalencia global de los valores: cuál de las muestras es "estocásticamente mayor". La prueba no tiene distribución. La prueba T compara medias. Supone una distribución normal. Por lo tanto, las pruebas diferentes hipótesis . En la mayoría de los casos, no planeamos comparar específicamente las medias, más bien, queremos saber qué muestra es mayor por valores, y hace que Mann-Whitney sea la prueba por defecto para nosotros. Por otro lado, cuando ambas distribuciones son simétricas la tarea de probar si una muestra es "mayor" que la otra degenera en la tarea de comparar las dos medias, y entonces, si las distribuciones son normales con varianzas iguales la prueba t se vuelve algo más potente.

24voto

bheklilr Puntos 113

Sí, lo hay. Por ejemplo, cualquier muestreo a partir de distribuciones con varianza infinita hará naufragar la prueba t, pero no la de Wilcoxon. Consultando Nonparametric Statistical Methods (Hollander y Wolfe), veo que la eficiencia relativa asintótica (ARE) del Wilcoxon en relación con la prueba t es 1,0 para la distribución Uniforme, 1,097 (es decir, el Wilcoxon es mejor) para la Logística, 1,5 para la Exponencial doble (Laplace) y 3,0 para la Exponencial.

Hodges y Lehmann demostraron que la ARE mínima de la prueba de Wilcoxon en relación con cualquier otra prueba es de 0,864, por lo que nunca se puede perder más de un 14% de eficiencia utilizándola en relación con cualquier otra cosa. (Por supuesto, se trata de un resultado asintótico.) En consecuencia, el uso por defecto del Wilcoxon por parte de Frank Harrell probablemente debería ser adoptado por casi todo el mundo, incluido yo mismo.

Edición: En respuesta a la pregunta formulada en los comentarios, para los que prefieran los intervalos de confianza, el método Estimador de Hodges-Lehmann es el estimador que "corresponde" a la prueba de Wilcoxon, y se pueden construir intervalos de confianza en torno a él.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X