7 votos

¿Por qué es preocupante la potencia de una prueba de hipótesis cuando podemos hacer un bootstrap de cualquier muestra representativa para que n se acerque al infinito?

¿Por qué nos preocupamos por la potencia de una prueba de hipótesis si ya no vivimos en una época en la que los ordenadores son lentos y es demasiado costoso hacer un bootstrap/una prueba de permutación sobre cualquier cosa que además no sea paramétrica?

¿Es irrelevante el análisis de potencia si puedo realizar una prueba de hipótesis por bootstrap/permutación?

Podemos hacer que el "tamaño de la muestra" sea infinito con el bootstrapping, así que la potencia aumenta como resultado del bootstrapping?

22voto

AdamSane Puntos 1825

La cantidad de información relacionada con las hipótesis que se tiene es simplemente la información de los datos originales.

El remuestreo de esa información, ya sea mediante bootstrapping, pruebas de permutación o cualquier otro remuestreo, no puede añadir información que no estuviera ya ahí.

El objetivo del bootstrapping es estimar la distribución de muestreo de alguna cantidad, básicamente utilizando la fdc de la muestra como una aproximación a la fdc de la población de la que se ha extraído.

Tal y como se entiende normalmente, cada muestra bootstrap tiene el mismo tamaño que la muestra original (ya que tomar una muestra más grande no te informaría de la variabilidad del muestreo con el tamaño de la muestra que tienes). Lo que varía es el número de esas remuestreos bootstrap.

Aumentar el número de muestras bootstrap da una sensación más "precisa" de esa aproximación, pero no añade ninguna información que no estuviera ya ahí.

Con una prueba bootstrap se puede reducir el error de simulación en el cálculo de un valor p, pero no se puede desplazar el valor p subyacente al que se está aproximando (que es sólo una función de la muestra); su estimación es sólo menos ruidosa.

Por ejemplo, digamos que hago una prueba t de una muestra con bootstrap (con una alternativa unilateral) y observo lo que ocurre cuando aumentamos el número de muestras con bootstrap:

histograms of bootstrap distribution of t-statstic, with 1000 and 10000 bootstrap resamples

La línea azul muy cercana a 2 muestra el estadístico t para nuestra muestra, que vemos que es inusualmente alto (el valor p estimado es similar en ambos casos, pero el error estándar estimado de ese valor p es aproximadamente un 30% más grande para el segundo)

Una imagen cualitativamente similar - versiones más ruidosas y menos ruidosas de idénticas formas de distribución subyacentes - resultaría también del muestreo de la distribución de permutación de alguna estadística.

Vemos que la información no ha cambiado; la forma básica de la distribución bootstrap de la estadística es la misma, sólo que obtenemos una idea ligeramente menos ruidosa de ella (y, por tanto, una estimación ligeramente menos ruidosa del valor p).

--

Hacer un análisis de potencia con una prueba bootstrap o de permutación es un poco complicado, ya que hay que especificar cosas que no es necesario asumir en la prueba, como la forma de distribución específica de la población. Puede evaluar la potencia bajo algún supuesto de distribución específico. Es de suponer que no tiene una idea particularmente buena de qué distribución es, o habría podido utilizar esa información para ayudar a construir la prueba (por ejemplo, comenzando con algo que tendría una buena potencia para una distribución que reflejara lo que usted entiende sobre ella, y luego quizás robusteciéndola un poco). Por supuesto, puede investigar una variedad de posibles distribuciones candidatas y una variedad de secuencias de alternativas, dependiendo de las circunstancias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X