23 votos

¿Análisis a priori es esencialmente inútil?

Asistí a una reunión de la Sociedad de Personalidad y Psicología Social, de la semana pasada, donde vi una charla de Uri Simonsohn con la premisa de que el uso de un a priori del análisis del poder para determinar el tamaño de la muestra fue esencialmente inútil porque sus resultados son tan sensibles a las hipótesis.

Por supuesto, esta afirmación va en contra de lo que me enseñaron en mis métodos de la clase y en contra de las recomendaciones de muchos prominentes expertos en metodología (más notablemente Cohen, 1992), por lo que Uri presentan algunas de las pruebas teniendo en su reclamación. He intentado recrear parte de esta evidencia a continuación.

Por simplicidad, vamos a imaginar una situación donde usted tiene dos grupos de observaciones y supongo que el tamaño del efecto (según lo medido por la diferencia de medias estandarizada) es $.5$. Un estándar de cálculo de la potencia (en R el uso de la pwr paquete de abajo) dirá usted necesitará $128$ observaciones para obtener el 80% de la potencia con este diseño.

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Generalmente, sin embargo, nuestras conjeturas sobre el tamaño previsto del efecto son (al menos en las ciencias sociales, que es mi campo de estudio) sólo que es muy áspera conjeturas. ¿Qué sucede entonces si nuestra conjetura sobre el tamaño del efecto es un poco off? Un rápido cálculo de la potencia le dice que si el tamaño del efecto es $.4$ en lugar de $.5$, usted necesita $200$ observaciones -- $1.56$ multiplicado por el número que usted necesita para tener la potencia adecuada para un tamaño del efecto de $.5$. Del mismo modo, si el tamaño del efecto es $.6$, sólo necesita $90$ observaciones, el 70% de lo que tendría que tener el poder suficiente para detectar un efecto de tamaño de $.50$. En la práctica, el rango en la estimación de observaciones es muy grande --$90$$200$.

Una respuesta a este problema es que, en lugar de hacer una pura conjetura en cuanto a lo del tamaño del efecto podría ser, reunir evidencias sobre el tamaño del efecto, ya sea a través del pasado de la literatura o a través de la prueba piloto. Por supuesto, si estás haciendo pruebas piloto, el piloto de prueba para ser lo suficientemente pequeño que no estás simplemente ejecutando una versión de su estudio para determinar el tamaño de muestra necesario para realizar el estudio (es decir, usted quiere el tamaño de la muestra utilizada en la prueba piloto a ser más pequeños que el tamaño de la muestra de su estudio).

Uri Simonsohn argumentó que la prueba piloto con el propósito de determinar el tamaño del efecto utilizado en su análisis del poder es inútil. Considere la siguiente simulación que me encontré en R. Esta simulación se asume que la población, el tamaño del efecto es $.5$. A continuación se realiza un $1000$ "piloto de pruebas" de la talla 40 y tabula los recomendados $N$ de cada uno de los 10000 pruebas piloto.

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

A continuación es un diagrama de densidad basado en esta simulación. He omitido $204$ de las pruebas piloto que se recomienda un número de observaciones por encima de $500$ para hacer la imagen más interpretables. Incluso centrándose en la menos extrema de los resultados de la simulación, hay una enorme variación en el $Ns$ recomendado por la $1000$ pruebas piloto.

enter image description here

Por supuesto, estoy seguro de que la sensibilidad a los supuestos problema sólo se pone peor, como el diseño se vuelve más complicado. Por ejemplo, en un diseño que requieren la especificación de efectos aleatorios de la estructura, la naturaleza de los efectos aleatorios de la estructura tendrá consecuencias dramáticas para la alimentación del diseño.

Así que, ¿qué piensan de este argumento? Es a priori el análisis de la potencia esencialmente inútil? Si es así, entonces, ¿cómo deben los investigadores planificar el tamaño de sus estudios?

21voto

Sean Hanley Puntos 2428

La cuestión fundamental aquí es cierto y bastante conocida en las estadísticas. Sin embargo, su interpretación o reivindicación es extrema. Hay varias cuestiones a abordar:

En primer lugar, el poder no cambia muy rápido con cambios en $N$. (Específicamente, cambia como una función de la $\sqrt N$, de modo de reducir a la mitad la desviación estándar de la distribución de muestreo, deberá cuadruplicar su $N$, etc.) Sin embargo, el poder es muy sensible al tamaño del efecto. Por otra parte, a menos que su estimación de la energía es $50\%$, el cambio en el poder con un cambio en el tamaño del efecto no es simétrica. Si usted está tratando de $80\%$ de potencia, potencia disminuirá más rápidamente con una disminución en la de Cohen $d$ de incremento con un aumento equivalente en los de Cohen $d$. Por ejemplo, cuando a partir de $d = .5$$N = 128$, si se tienen 20 menos observaciones, el poder caería $\approx 7.9\%$, pero si había más de 20 observación, el poder aumentaría $\approx 5.5\%$. Por otro lado, si el verdadero tamaño del efecto se $.1$ inferior, a continuación, poder ser $\approx 16.9\%$ menor, pero si se $.1$ superior, $\approx 12.6\%$ superior. Esta asimetría, y la diferencia de sensibilidad, se puede ver en las figuras siguientes.

enter image description here

Si usted está trabajando a partir de los efectos estimados a partir de la investigación previa, por ejemplo, un meta-análisis o estudio piloto, la solución a esto es a incorporar a su incertidumbre sobre el verdadero tamaño del efecto en su cálculo de la potencia. Idealmente, esto implicaría la integración sobre la totalidad de la distribución de posibles tamaños de efecto. Esta es, probablemente, un puente demasiado lejos para la mayoría de aplicaciones, pero una rápida y sucia estrategia para calcular la potencia en varios de los tamaños del efecto, su estimado de Cohen $d$ más o menos 1 y 2 desviaciones estándar y, a continuación, obtener un promedio ponderado utilizando las densidades de probabilidad de los cuantiles como los pesos.

Si usted está llevando a cabo un estudio de algo que nunca ha sido estudiado antes, esto no importa. Usted sabe cuál es el efecto que el tamaño te importa. En realidad, el efecto es que los grandes (o más grande), o es de menor tamaño (incluso, posiblemente, 0). Utilizando el tamaño del efecto que le interesan en su análisis de la potencia será válida, y le dará una prueba adecuada de su hipótesis. Si el tamaño del efecto que importa es el valor true, se tendrá (dicen) un $80\%$ de probabilidad de "significado". Si, debido a un error de muestreo, el se dio cuenta de la magnitud del efecto en su estudio es menor (mayor) que el resultado va a ser menos (más) importantes, o incluso la no-significativos. Que es la forma en que se supone que funciona.

Segundo, con respecto a la más amplia afirmación de que el poder de los análisis (a priori o de otra manera) se basan en supuestos, no está claro qué hacer con ese argumento. Por supuesto que sí. Así que hace todo lo demás. No se ejecuta un análisis del poder, pero el simple hecho de reunir una cantidad de datos basado en un número escogido de un sombrero, y, a continuación, analizar los datos, no mejorará la situación. Por otra parte, su análisis resultantes todavía se basan en supuestos, como todos los análisis (de poder o de otra manera) siempre lo hacen. Si en su lugar se decide que se va a seguir para recopilar datos y analizar de nuevo hasta que obtenga una imagen que te gusta o se cansa de ella, que será mucho menos válida (y todavía implican suposiciones que pueden ser invisibles para el altavoz, pero que existen, no obstante). Sencillamente, no hay forma de evitar el hecho de que las hipótesis están siendo realizadas en la investigación y análisis de datos.

Usted puede encontrar estos recursos de interés:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X