7 votos

¿Es la re-aleatorización un método válido para estimar la significación estadística?

Soy un novato en estadística y estoy tomando Curso de Khan Academy . Hay un vídeo No lo entiendo.

Esto es lo esencial. Una estadística quiere saber qué autobús la lleva más rápido al trabajo: A o B. Durante 50 días toma el autobús A o el B y registra el tiempo transcurrido. Después calcula la mediana del tiempo transcurrido en cada autobús y descubre que la diferencia entre ambos es de 8 (el A es más rápido). Para mí, todo esto está muy claro.

Ahora viene la parte poco clara. Para comprobar la significación estadística, realiza una nueva aleatorización: baraja todas las observaciones, las divide en dos grupos iguales y determina la diferencia de medias. Repite esta operación varias veces. Entonces descubre que el resultado 8 aparece en el 9,3% de las re-aleatorizaciones, por lo que concluye que su resultado inicial no es estadísticamente significativo.

No entiendo por qué es una forma de estimar la significación estadística. He aquí un ejemplo un tanto extremo. Imaginemos que el autobús A siempre tarda 9 minutos. Y el autobús B siempre tarda 10 minutos. He realizado varias simulaciones de realeatorización con esos datos (por ejemplo, 1000 estimaciones de A y B y 100000 rondas de realeatorización) y he obtenido el resultado 1 en ~50% de las realeatorizaciones (y para mí es intuitivo). ¿Significa eso que los resultados no son estadísticamente significativos (es extraño, el ganador está muy claro)? ¿O la realeatorización tiene una aplicación limitada (o nula) en la estimación de la significación estadística?

Sé que hay formas mejores (y más comunes) de estimar la significación, mi pregunta se refiere a la reasignación al azar.

5voto

JoanComasFdz Puntos 131

La idea de una prueba de aleatorización es que si un tratamiento determinado no tiene ningún efecto sobre un resultado, entonces la asignación de ese tratamiento no es más que una especie de etiquetado arbitrario. ( Prueba exacta de Fisher fue el primer método basado en este concepto). Ahora bien, si tenemos algún estadístico y queremos conocer su distribución bajo la hipótesis nula de ausencia de efecto del tratamiento, podemos estimar mediante simulación esta distribución nula reetiquetando aleatoriamente las observaciones y observando el comportamiento de nuestro estadístico en este escenario, porque entonces la hipótesis nula es efectivamente cierta.

El ejemplo que pones es interesante, pero fíjate que no es el talla de la diferencia en el tiempo medio que tomaríamos como prueba de que el autobús A es más rápido, sino el hecho de que el autobús A es siempre más rápido. Así que una estadística de prueba más sensata sería algo que midiera esto más directamente, como la estadística utilizada en Prueba de suma de rangos de Wilcoxon . Si en lugar de ello realizara una prueba de aleatorización utilizando un estadístico de suma de rangos, obtendría un resultado altamente "significativo".

3voto

K-os Puntos 86

Vale, llego un poco tarde a esta fiesta, pero aunque estoy de acuerdo con lo que dice dsaxton en el primer párrafo, creo que el segundo se pierde.

La re-aleatorización funciona muy bien para especificar la distribución nula para una gran variedad de estadísticas. Sin embargo, has conseguido causar un problema al combinar dos distribuciones patológicas (distribuciones puntuales centradas en 9 y 10 respectivamente) con la mediana, un estadístico que quizá sea el menos útil cuando sólo hay dos valores posibles porque puede volverse muy inestable.

Voy a intentar hacer comparaciones con varios tamaños de muestra para mostrar lo que ocurre aquí. Debería ayudar a explicar la idea de dsaxton de que la consistencia es donde reside el verdadero poder estadístico.

Imagina que hacemos un viaje en cada autobús. Obtenemos un 9 y un 10. Aleatorizamos 10.000 veces para realizar la inferencia. En la mitad de ellas, las posiciones cambian, en la otra mitad no. Así, si medimos medianas, la mitad de las veces la diferencia de medianas será -1, y la otra mitad será 1. Del mismo modo, para las medias, la mitad de las veces la diferencia de medias será -1 y la otra mitad será 1.

Ahora imaginemos que hacemos 10 viajes en cada autobús, lo que da como resultado diez 10s y diez 9s. Volvemos a aleatorizar. Esta vez, la mayoría de las aleatorizaciones dan como resultado que haya unos cinco de cada 10 y 9 en cada muestra. Las medias formarán distribuciones normales (en realidad una binomial desplazada) alrededor de 9,5 para cada muestra, dando una diferencia centrada en 0. La diferencia en las medianas puede ser ocasionalmente 0 -si realmente tenemos cinco de cada vez en cada muestra- dando medianas en cada muestra de 9,5, pero es más probable que haya un ligero desequilibrio. Ese ligero desequilibrio hace que las medianas sean 9 y 10 o 10 y 9. Por lo tanto, la mayoría de las veces la diferencia de medianas será -1 o 1, que es similar a nuestro resultado real, dando el valor p extra alto.

Puede parecer que seguir aumentando el número de viajes en autobús debería solucionar este problema, pero aunque eso hace que la media sea más estable -y fija el nulo firmemente en torno a 0-, en realidad desestabiliza la mediana. Cada vez es menos probable obtener esa coincidencia exacta, por lo que desaparece el término medio.

De acuerdo. Tal vez eso tuvo sentido. Voy a incluir algo de código R para concretar esto.

n = 10
a = rep(10,n) #initial samples 
b = rep(9,n)
joint.sample = c(a,b) #Combining samples for ease
bootstraps = 10000 #Number of replications

est.mean = mean(a) - mean(b) #Estimate of treatment    
boot.mean = replicate(bootstraps, {
  new.sample = sample(joint.sample)
  mean(new.sample[1:n]) - mean(new.sample[1:n+n])
}) #Simply resamples and takes means of the two groups
CI.mean = quantile(boot.mean,prob=c(0.025,0.975) #Calculates a CI
pval.mean = mean(boot.mean >= est.mean)*2 #Two-sided p-value

#Same things but with median
est.median = median(a)-median(b)
boot.median = replicate(bootstraps, {
  new.sample = sample(joint.sample)
  median(new.sample[1:n]) - median(new.sample[1:n+n])
})
CI.median = quantile(boot.median,prob=c(0.025,0.975) 
pval.median = mean(boot.median >= est.median)*2 

Eso debería darte resultados que muestren que la aleatorización con una media rechazaría fuertemente que fueran iguales. Siéntase libre de jugar con el tamaño de la muestra n para ver cómo afecta a las cosas, pero sobre todo, para un caso tan claro como este, no se necesita una gran muestra para detectar la diferencia. También debería ser capaz de rechazar el uso de una mediana - pero se necesitaría un par diferente de las distribuciones de tal manera que las medianas se movieron un poco más. Creo que cualquier cosa continua es suficiente, y luego es cuestión del tamaño de la muestra.

Una nota de precaución. Utilicé los valores predeterminados de la función de muestra aquí para determinar si iba con o sin reemplazo. En general, usted debe pensar muy bien qué tipo de muestreo está utilizando porque eso puede afectar y afectará los resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X