6 votos

Cálculo del tamaño de muestra necesario mediante bootstrap

Recientemente he encontrado un sitio web (http://www.surveysystem.com/sscalc.htm) que devuelve el tamaño de la muestra a partir de los siguientes datos: nivel de confianza, intervalo de confianza y población. Supongo que esto se hace reordenando una prueba de hipótesis bajo una FDA, supongo que utilizando la distribución normal estándar. Pero, si uno no cree que los datos reflejen esta FCD en particular, ¿cómo utilizaría el bootstrapping para llegar a una versión del tamaño de la muestra que se base en los datos y no se limite a la distribución ~N(0,1)?

Además, me interesa este procedimiento para las estratificaciones de una muestra.

Se agradecería ayuda en cualquiera de los dos casos, especialmente en el primer párrafo.

11voto

David L Morris Puntos 917

Vale, puede que esta respuesta no sea exactamente lo que buscabas por los detalles de tu pregunta, pero me he topado con ella por el título, así que puede que ayude a otras personas que también se topen con ella de forma similar.

La única forma que conozco de determinar el tamaño de la muestra utilizando un bootstrap es mediante un enfoque de análisis de potencia. Ese eres tú:

  1. Enunciar la hipótesis nula y la hipótesis alternativa
  2. Indique el nivel alfa (normalmente el 5%)
  3. Si es necesario, desplace los datos del estudio piloto para saber si la hipótesis nula es falsa.
  4. Remuestreo con sustitutos del estudio piloto
  5. Realice la prueba con esta muestra y anote el resultado
  6. Repítelo unas 1000 veces para construir la distribución de probabilidad
  7. Cuente cuántas veces se rechaza la hipótesis nula

Con muchas posibles "variaciones sobre un tema de...".

Y eso le da la potencia estadística (para ese tamaño de muestra y esa prueba concreta), porque la definición de potencia estadística es "probabilidad de que la prueba rechace la hipótesis nula cuando la hipótesis alternativa es cierta". Por tanto, puede variar el tamaño de la muestra hasta alcanzar la potencia deseada.

Aquí hay un enfoque en R que hice basado en este documento, Tamaño de la muestra / Potencia por Elizabeth Colantuoni .

Tenía dos grupos de datos no normales y no paramétricos. Un estudio piloto de cada uno de ellos mostró que tenían medianas diferentes y una prueba de Mann Whitney Wilcoxon rechazó la hipótesis nula de que eran iguales, pero quería determinar el tamaño de muestra necesario para poder afirmarlo con "seguridad". Como la prueba ya rechazaba la hipótesis nula en los datos piloto, no vi ninguna necesidad de cambiar o manipular los datos para asegurarme de que la hipótesis alternativa era cierta.

power = function(group1.pilot, group2.pilot, reps=1000, size=10) {
    results  <- sapply(1:reps, function(r) {
        group1.resample <- sample(group1.pilot, size=size, replace=TRUE) 
        group2.resample <- sample(group2.pilot, size=size, replace=TRUE) 
        test <- wilcox.test(group1.resample, group2.resample, paired=FALSE)
        test$p.value
    })
    sum(results<0.05)/reps
}

#Find power for a sample size of 100
power(data1, data2, reps=1000, size=100)

Descargo de responsabilidad necesario: no soy estadístico y aún estoy aprendiendo sobre bootstrapping, por lo que se agradecen comentarios, correcciones, señalamientos y risas.

1voto

Micard Puntos 42

Suponiendo que desee calcular la potencia de una prueba no basada en la normalidad, como por ejemplo la prueba de wilcox, un enfoque general sería simular. El enfoque básico del bootstrap para el cálculo de la potencia consiste en suponer que el efecto es real y contar cuántas veces la prueba estadística elegida da un resultado estadísticamente significativo basado en el nivel de significación elegido sobre el número total de veces que se ha realizado la simulación. Esta proporción es la potencia.

Para la prueba de Wilcox, el siguiente código R muestra el principio del enfoque.

power = function(group1, group2, alpha=0.05, reps=1000) {
    results  <- sapply(1:reps, function(r) {
        group1.resample <- sample(group1, size=length(group1), replace=TRUE) 
        group2.resample <- sample(group2, size=length(group2), replace=TRUE) 
        test <- wilcox.test(group1.resample, group2.resample, paired=FALSE)
        test$p.value
    })
    sum(results<alpha)/reps
}

where data1 and data2 are assumed to be vectors for simplicity.
power(data1, data2, reps=1000)

Basándose en este enfoque, también debería estar claro cómo ampliarlo a configuraciones experimentales más generales, como datos emparejados, o más grupos, etc. En el excelente libro de Larry Wasserman "All of statistics" se ofrece un breve resumen de muchos temas estadísticos, incluido el boostrapping.

En cuanto a la estadística robusta, se recomienda encarecidamente el libro de Rand Wilcox "Introduction to Robust Estimation & Hypothesis Testing" (Introducción a la estimación robusta y la comprobación de hipótesis), que también puede ser muy útil a la hora de consultar el código fuente para entender cómo funciona (dado que su paquete WRS contiene más de 1.000 funciones).

Por otro lado, me parece que, para que esto sea útil, es posible que ya se haya realizado el experimento, lo que plantea problemas con el análisis de potencia post hoc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X