Vale, llego un poco tarde a esta fiesta, pero aunque estoy de acuerdo con lo que dice dsaxton en el primer párrafo, creo que el segundo se pierde.
La re-aleatorización funciona muy bien para especificar la distribución nula para una gran variedad de estadísticas. Sin embargo, has conseguido causar un problema al combinar dos distribuciones patológicas (distribuciones puntuales centradas en 9 y 10 respectivamente) con la mediana, un estadístico que quizá sea el menos útil cuando sólo hay dos valores posibles porque puede volverse muy inestable.
Voy a intentar hacer comparaciones con varios tamaños de muestra para mostrar lo que ocurre aquí. Debería ayudar a explicar la idea de dsaxton de que la consistencia es donde reside el verdadero poder estadístico.
Imagina que hacemos un viaje en cada autobús. Obtenemos un 9 y un 10. Aleatorizamos 10.000 veces para realizar la inferencia. En la mitad de ellas, las posiciones cambian, en la otra mitad no. Así, si medimos medianas, la mitad de las veces la diferencia de medianas será -1, y la otra mitad será 1. Del mismo modo, para las medias, la mitad de las veces la diferencia de medias será -1 y la otra mitad será 1.
Ahora imaginemos que hacemos 10 viajes en cada autobús, lo que da como resultado diez 10s y diez 9s. Volvemos a aleatorizar. Esta vez, la mayoría de las aleatorizaciones dan como resultado que haya unos cinco de cada 10 y 9 en cada muestra. Las medias formarán distribuciones normales (en realidad una binomial desplazada) alrededor de 9,5 para cada muestra, dando una diferencia centrada en 0. La diferencia en las medianas puede ser ocasionalmente 0 -si realmente tenemos cinco de cada vez en cada muestra- dando medianas en cada muestra de 9,5, pero es más probable que haya un ligero desequilibrio. Ese ligero desequilibrio hace que las medianas sean 9 y 10 o 10 y 9. Por lo tanto, la mayoría de las veces la diferencia de medianas será -1 o 1, que es similar a nuestro resultado real, dando el valor p extra alto.
Puede parecer que seguir aumentando el número de viajes en autobús debería solucionar este problema, pero aunque eso hace que la media sea más estable -y fija el nulo firmemente en torno a 0-, en realidad desestabiliza la mediana. Cada vez es menos probable obtener esa coincidencia exacta, por lo que desaparece el término medio.
De acuerdo. Tal vez eso tuvo sentido. Voy a incluir algo de código R para concretar esto.
n = 10
a = rep(10,n) #initial samples
b = rep(9,n)
joint.sample = c(a,b) #Combining samples for ease
bootstraps = 10000 #Number of replications
est.mean = mean(a) - mean(b) #Estimate of treatment
boot.mean = replicate(bootstraps, {
new.sample = sample(joint.sample)
mean(new.sample[1:n]) - mean(new.sample[1:n+n])
}) #Simply resamples and takes means of the two groups
CI.mean = quantile(boot.mean,prob=c(0.025,0.975) #Calculates a CI
pval.mean = mean(boot.mean >= est.mean)*2 #Two-sided p-value
#Same things but with median
est.median = median(a)-median(b)
boot.median = replicate(bootstraps, {
new.sample = sample(joint.sample)
median(new.sample[1:n]) - median(new.sample[1:n+n])
})
CI.median = quantile(boot.median,prob=c(0.025,0.975)
pval.median = mean(boot.median >= est.median)*2
Eso debería darte resultados que muestren que la aleatorización con una media rechazaría fuertemente que fueran iguales. Siéntase libre de jugar con el tamaño de la muestra n para ver cómo afecta a las cosas, pero sobre todo, para un caso tan claro como este, no se necesita una gran muestra para detectar la diferencia. También debería ser capaz de rechazar el uso de una mediana - pero se necesitaría un par diferente de las distribuciones de tal manera que las medianas se movieron un poco más. Creo que cualquier cosa continua es suficiente, y luego es cuestión del tamaño de la muestra.
Una nota de precaución. Utilicé los valores predeterminados de la función de muestra aquí para determinar si iba con o sin reemplazo. En general, usted debe pensar muy bien qué tipo de muestreo está utilizando porque eso puede afectar y afectará los resultados.