9 votos

¿Cómo interpreto la U de Mann-Whitney al utilizar la interfaz de la fórmula de R?

Digamos que tenemos los siguientes datos:

set.seed(123)
data <- data.frame(x = c(rnorm(50, 1, 1), rnorm(50, 5, 2)),
                   y = c(rep('A', 50),    rep('B', 50)))

Lo que da como resultado el siguiente boxplot ( boxplot(data$x ~ data$y) ):

boxplot

Ahora digamos que quiero comprobar si las dos muestras tienen los mismos parámetros de localización (mediana y/o media). En mi caso real, los datos no son claramente normales Así que he decidido hacer la prueba de Wilcoxon-Mann-Whitney, así:

wilcox.test(data$x ~ data$y)

Sin embargo, me gustaría que la hipótesis alternativa fuera que B, data$y proviene de una distribución con parámetros de posición más altos. He probado a configurar el alternative a "mayor" y "menor", pero aparentemente las hipótesis alternativas no son lo que busco. Por ejemplo, alternative = "greater" me dice "hipótesis alternativa: el desplazamiento de la ubicación real es mayor que 0"; alternative = "less" me dice "hipótesis alternativa: el desplazamiento de la ubicación real es menor que 0".

¿Cómo puedo ajustar el wilcox.test() para tener la hipótesis alternativa que quiero (B proviene de una distribución con parámetros de posición más altos que A)? ¿O debería utilizar otra prueba en su lugar?

9voto

Jared Farrish Puntos 120

Técnicamente, la categoría de referencia y la dirección de la prueba dependen de la forma en que se codifique la variable factorial. Con sus datos de juguete:

> wilcox.test(x ~ y, data=data, alternative="greater")

    Wilcoxon rank sum test with continuity correction

data:  x by y 
W = 52, p-value = 1
alternative hypothesis: true location shift is greater than 0 

> wilcox.test(x ~ y, data=data, alternative="less")

    Wilcoxon rank sum test with continuity correction

data:  x by y 
W = 52, p-value < 2.2e-16
alternative hypothesis: true location shift is less than 0 

Observe que el estadístico W es el mismo en ambos casos, pero la prueba utiliza colas opuestas de su distribución muestral. Ahora veamos la variable factorial:

> levels(data$y)
[1] "A" "B"

Podemos recodificarla para que "B" sea el primer nivel:

> data$y <- factor(data$y, levels=c("B", "A"))

Ahora sí:

> levels(data$y)
[1] "B" "A"

Tenga en cuenta que no cambiamos los datos en sí La forma en que la variable categórica se codifica "bajo el capó":

> head(data)
          x y
1 0.4395244 A
2 0.7698225 A
3 2.5587083 A
4 1.0705084 A
5 1.1292877 A
6 2.7150650 A

> aggregate(data$x, by=list(data$y), mean)
  Group.1        x
1       B 5.292817
2       A 1.034404

Pero las direcciones de la prueba están ahora invertidas:

> wilcox.test(x ~ y, data=data, alternative="greater")

    Wilcoxon rank sum test with continuity correction

data:  x by y 
W = 2448, p-value < 2.2e-16
alternative hypothesis: true location shift is greater than 0 

La estadística W es diferente, pero la p -es el mismo que para el alternative="less" prueba con las categorías en el orden original. Con los datos originales, podría interpretarse como "el desplazamiento de la ubicación de B a A es menor que 0" y con los datos recodificados se convierte en "el desplazamiento de la ubicación de A a B es mayor que 0", pero en realidad se trata de la misma hipótesis (pero vea los comentarios de Glen_b a la pregunta para la interpretación correcta).

Por lo tanto, en su caso, parece que la prueba que desea es alternative="less" (o, de forma equivalente, alternative="greater" con los datos recodificados). ¿Ayuda esto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X