Si se supone que las pruebas no paramétricas tienen menos potencia que sus alternativas paramétricas, ¿implica esto que si cualquier prueba paramétrica no rechaza el nulo, entonces su alternativa no paramétrica tampoco rechaza el nulo? ¿Cómo puede cambiar esto si los supuestos de la prueba paramétrica no se cumplen y la prueba se utiliza de todos modos?
Respuestas
¿Demasiados anuncios?No.
Aunque las pruebas paramétricas pueden ser más potentes, no siempre es así. Cuando no es así, suele ser en situaciones en las que no se deberían realizar pruebas paramétricas.
Pero, incluso si está recogiendo muestras de tamaño decente de distribuciones normales con igual varianza donde la prueba paramétrica tiene mayor poder, no garantiza que para cualquier experimento particular una prueba paramétrica no significativa signifique una prueba no paramétrica no significativa. Aquí hay una simulación que sólo utiliza el muestreo aleatorio de las distribuciones normales y encuentra que alrededor del 1,8% de las veces cuando p > 0,05 para una prueba t que p < 0,05 para una prueba de Wilcoxon.
nsim <- 10000
n <- 50
cohensD <- 0.2
Y <- replicate(nsim, {
y1 <- rnorm(n, 0, 1); y2 <- rnorm(n, cohensD, 1)
tt <- t.test(y1, y2, var.equal = TRUE)
wt <- wilcox.test(y1, y2)
c(tt$p.value, wt$p.value)})
sum(Y[1,] > 0.05 & Y[2,] < 0.05) / nsim
Puede observar que, en esta simulación, la potencia de la prueba paramétrica es mayor que la de la prueba no paramétrica (aunque son similares).
sum(Y[1,] < 0.05) / nsim #t-test power
sum(Y[2,] < 0.05) / nsim #wilcox.test power
Pero, como se ha demostrado anteriormente, eso no significa que en todos los casos en los que la prueba paramétrica no encuentra un efecto, la prueba no paramétrica tampoco lo haga.
Puedes jugar con esta simulación. Haz que n sea bastante grande, digamos 1000, y haz que el tamaño del efecto sea mucho menor, digamos 0,02 (necesitas una potencia baja para tener muchas muestras en las que la prueba falle). Con un n de 1000 se puede garantizar que ninguna de las muestras será rechazada por no normalidad (por inspección, no por una prueba estúpida) o tendrá valores atípicos sospechosos. Sin embargo, algunas de las pruebas paramétricas resultan no significativas, mientras que las pruebas no paramétricas son significativas.
También puede consultar Hunter y May (1993).
Hunter, M. A., y May, R. B. (1993). Some myths concerning parametric and nonparametric tests. Canadian Psychology, 34(4), 384-389.
Si una prueba paramétrica no rechaza la hipótesis nula, su equivalente no paramétrico puede rechazar la hipótesis nula. Como dijo @John, esto suele ocurrir cuando se violan los supuestos que justificarían el uso de la prueba paramétrica. Por ejemplo, si comparamos la prueba t de dos muestras con la prueba de suma de rangos de Wilcoxon, puede darse esta situación si incluimos valores atípicos en nuestros datos (con valores atípicos no deberíamos utilizar la prueba de dos muestras).
#Test Data
x = c(-100,-100,rnorm(1000,0.5,1),100,100)
y = rnorm(1000,0.6,1)
#Two-Sample t-Test
t.test(x,y,var.equal=TRUE)
#Wilcoxon Rank Sum Test
wilcox.test(x,y)
Los resultados de la ejecución de la prueba:
> t.test(x,y,var.equal=TRUE)
Two Sample t-test
data: x and y
t = -1.0178, df = 2002, p-value = 0.3089
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.6093287 0.1929563
sample estimates:
mean of x mean of y
0.4295556 0.6377417
>
> wilcox.test(x,y)
Wilcoxon rank sum test with continuity correction
data: x and y
W = 443175, p-value = 5.578e-06
alternative hypothesis: true location shift is not equal to 0
4 votos
(a) si la prueba A tiene una potencia menor que la prueba B en alguna circunstancia supuesta, eso no implica que los casos que A rechazará sean un subconjunto de los de B (de hecho, eso no es posible a un nivel de significación fijo); rechazan porciones diferentes (pero quizás muy superpuestas) del espacio muestral: siempre hay casos que cada una rechazará que la otra no. (b) Si los supuestos de la prueba paramétrica no se cumplen (¿se cumplen realmente alguna vez?), entonces las pruebas paramétricas pueden tener una potencia relativamente pobre (por ejemplo, la prueba t frente a Mann-Whitney con colas pesadas)