4 votos

¿Por qué me dijo a utilizar un tamaño de muestra de 30 cuando se usa el test de Mann–Whitney U test?

Mi profesor me dijo que debía usar $n_1=n_2=30$ tamaño de la muestra. Yo no veo ninguna mención del tamaño de la muestra de ser un requisito para la prueba de Mann–Whitney en la Wikipedia. Veo que hay otras pruebas estadísticas que requieren un tamaño mínimo de muestra de 30 en algunas situaciones. Es el tamaño de la muestra importante para el test de Mann–Whitney U test?

Edit: se me pidió para añadir más información, así que aquí va: El rendimiento de los cambios a un algoritmo se ha probado. El algoritmo genera un número que representa su rendimiento. El primer conjunto de la muestra será el algoritmo de números de rendimiento sin modificaciones, el segundo conjunto de la muestra será el algoritmo de números de rendimiento con las modificaciones. El tamaño de la primera muestra es $n_1$. El tamaño de la segunda muestra es $n_2$. La prueba se utiliza para determinar si los cambios en el algoritmo de hacer una diferencia para su rendimiento. Los números aleatorios que desempeñan un papel en el algoritmo, por lo que el número de desempeño varía ligeramente entre las ejecuciones.

11voto

Zizzencs Puntos 1358

El test de Mann Whitney no requiere ningún tipo N.

Sin embargo, lo que a su instructor es probablemente hablando de poder; es decir, con un pequeño N, las diferencias no van a ser estadísticamente significativa, a menos que ellos son realmente enormes.

5voto

fabiob Puntos 146
  • el más alto de la N la mejor
  • la comunidad parece estar de acuerdo en que N=30 es un buen límite inferior para la mayoría de las aplicaciones, sino que es un suave, límite convencional, no teórica

4voto

Sean Hanley Puntos 2428

Hay un par de posibilidades. Es cierto que con más datos de los que tendrá más poder, pero el poder es también una función de la magnitud de un efecto que usted está tratando de diferenciarse de 0, por lo $N = 60$ podría ser pésimo poder, un gran poder o cualquier otra cosa. También es cierto que $N = 30$ es una vieja regla de oro para las pruebas t, por lo que, si se asume que su profesor está confundido, que podría ser el origen. Vamos a ser solidarios, a pesar de que. @cassneklff hace un perspicaz punto (+1), pero no es realmente necesario $N = 60$ para que sea posible obtener los valores de p menor a .05, por lo que no puede ser tampoco. En su lugar, vamos a pensar más acerca de cómo el test de Mann-Whitney prueba de obras—específicamente, ¿cómo se calcula el p-valor.

La prueba de Mann-Whitney en realidad no asumir que sus datos son ordinales calificaciones, a pesar del hecho de que eso es lo que muchas personas creen. En realidad tiene continuo de datos en la mente, es sólo que ellos pueden tener cualquier distribución (no solo la normal). Con datos continuos, teóricamente es posible calcular los valores p exactos. Esto puede ser computacionalmente caro. Así que con un gran $N$, la aproximación normal se utiliza normalmente. En R, por ejemplo, ?wilcox.la prueba utiliza la aproximación normal si $N > 50$, que es notablemente cerca de su profesor de la regla de oro. Con tamaños de muestra grandes, la aproximación normal debe ser bueno, pero con pequeños tamaños de muestra, puede no ser tan bueno. No importa si usted va a calcular el exacto valor de p, pero el nudo en la cadena es que el p-valor no puede ser calculada si hay lazos. (Los empates no debería producirse con verdad continuo de datos, pero es probable que ocurra con el tipo de datos de las personas a menudo usan el test de Mann-Whitney U-test en la práctica). Por lo tanto, la aproximación normal a menudo es la que se basó para calcular el p-valor, incluso con tamaños de muestra pequeños. Mi conjetura es que este hecho es lo que está detrás de su profesor de la regla de oro.

Así, lo mal que hace la aproximación normal de trabajo? Depende de tu tolerancia al error, supongo. A continuación, me simular pruebas de un verdadero nulo de dos binomios (que va a crear un montón de lazos). Se puede ver que la prueba es un poco conservador al $N = 20$, y que la distribución de muestreo de la prueba estadística no es muy normal.

set.seed(7316)                       # this makes the example exactly reproducible
w.vect = vector(length=10000)        # this will store the test statistics
p.vect = vector(length=10000)        # this will store the p-values
for(i in 1:10000){
  g1 = rbinom(10, size=10, prob=.6)  # 10 realizations each of 2 binomials w/ 
  g2 = rbinom(10, size=10, prob=.6)  # parameters: n=10, p=.6 (a true null)
  wt = wilcox.test(g1, g2)           # the Mann-Whitney U-test
  w.vect[i] = wt$statistic
  p.vect[i] = wt$p.value
};  rm(i)
summary(p.vect)
#      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
# 0.0006907 0.2683816 0.5275134 0.5221142 0.7840781 1.0000000 
mean(p.vect<.05)  # [1] 0.0406       # this should have been .05
summary(w.vect)
#    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#    6.00   41.50   50.00   50.19   59.00   92.50 
sd(w.vect)  # [1] 12.64774
xs = seq(5, 93)                      # I need this for the plot below
windows()
  hist(w.vect, breaks=88, freq=FALSE, col="lightgray",
       main="Observed density vs. true normal")
  lines(density(w.vect), lwd=2)
  lines(xs, dnorm(xs, mean=50.9, sd=12.64774), lwd=3, col="red")

enter image description here

2voto

akdb2004 Puntos 1

Como la u de Mann-Whitney es una prueba no paramétrica, se puede producir simplemente un conjunto fijo de valores de P cuando el tamaño de la muestra es demasiado baja. Por ejemplo, para muestras pequeñas no puede producir de P<0,05 en todos los casos. Como otros dijeron, tu tamaño de la muestra parece ser el estándar de la comunidad, otros valores de trabajo, pero va demasiado bajo hará que ciertos discretización de problemas..

1voto

Brandon Grossutti Puntos 140

Tamaño de la muestra es siempre importante. Yo quiero que mis estudiantes para recoger los datos con un tamaño de muestra de miles de personas, ya que les da los buenos datos y más poder. Quieren un tamaño de muestra de 4, porque son perezosos. 30 parece como un compromiso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X