8 votos

¿Debo preocuparme de que la potencia de la prueba t sea relativamente pequeña cuando ya se rechaza H0?

Tengo dos muestras bastante pequeñas ( $n=7$ para cada uno) y obtengo una potencia de la prueba t de dos muestras para ellos de 0,49, que es relativamente pequeña (calculada por R power.t.test() ). Sin embargo, la prueba t de dos muestras de Welch da un valor p de $0.032$ aquí, por lo que se puede rechazar la hipótesis nula.

¿Ahora debería molestarme que la potencia sea pequeña?

Tengo entendido que la potencia = $1 - \beta$ donde $\beta$ es la probabilidad de error de tipo II. Aquí significa que mi prueba no rechazaría H0 en aproximadamente el 50% de los casos en los que debería rechazarse, por lo que debería preocuparme especialmente cuando mis muestras particulares no pudieran rechazar H0. Pero en el caso de mis muestras particulares parece que he tenido suerte y mi prueba t, que tiene una cierta falta de potencia, ha tenido éxito en el rechazo, por lo que no necesito preocuparme por la beta y puedo disfrutar de poder mostrar una diferencia significativa en las medias de las muestras.

¿Es correcta mi interpretación? ¿O se me escapa algo importante?

5voto

le_andrew Puntos 1004

En un sentido estricto, tiene razón. La potencia es la posibilidad de rechazar correctamente una hipótesis nula falsa, por lo que la probabilidad de que lo hicieras era pequeña, pero de todos modos pudiste hacerlo.

Sin embargo, desde una perspectiva de actualización de creencias bayesiana, "reducir la potencia implica reducir el cambio de creencias que se justifica al observar un resultado estadísticamente significativo (McClelland et al. 2015)." Piénsalo así: si te dijera que he encuestado a 30.000 personas del público en general y he encontrado que, en contra de las cifras de ventas, a la gente le suele gustar más la Pepsi que la Coca-Cola, sería muy convincente. Encontré un resultado después de estudiar al 1% de una población (es decir, el público general de Estados Unidos). Es probable que se generalice a la población en general. Si encuestara a 7 personas y encontrara lo mismo, aunque fuera estadísticamente significativo, no convencería a nadie. Se pueden argumentar muchas razones para ello (no se puede obtener una muestra representativa, puede que no se cumplan los supuestos del ANOVA/regresión, etc.), pero lo importante es que una potencia alta significa una gran capacidad de persuasión (y se debe ser tan crítico o más con los resultados como con aquellos a los que se intenta convencer). Para la matemática bayesiana, así como para una mayor explicación, puedes consultar cualquiera de los siguientes.

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

Además, Ioannidis (2005) proporciona algunos argumentos convincentes para que los resultados de baja potencia reflejen errores de tipo I, incluso en ausencia de p-hacking y otros sesgos que a menudo resultan de la baja potencia (y la papel es de libre acceso en caso de que no trabajes en una universidad o algo similar).

2voto

Sean Hanley Puntos 2428

Depende de cómo se haya realizado el análisis de potencia. En general, existe una relación entre cuatro variables (alfa, potencia, tamaño del efecto y $N$ ) de tal manera que si se estipulan tres cualesquiera se puede resolver el cuarto.

Normalmente, cuando la gente realiza un análisis de potencia después de analizar sus datos, hace un post-hoc análisis de potencia (de ahí el nombre), lo que significa que introducen su valor de alfa, su tamaño del efecto observado y su $N$ para resolver la potencia. Ciertamente no es necesario hacerlo así (se podría hacer de antemano con un tamaño del efecto teóricamente sugerido y el $N$ que sabes que estará disponible para ti), pero si lo haces, los resultados son en gran medida previsibles. En concreto, si su resultado fue significativo, la potencia será $>50\%$ y si su resultado no fue significativo, la potencia será $<50\%$ .

Eso no parece ser lo que has encontrado. Una posibilidad es que haya una discrepancia sutil entre los métodos utilizados en su prueba y los del análisis de potencia. Esto se sugiere por el hecho de que su observado $p$ -valor está cerca de $.05$ y su potencia calculada es cercana a $50\%$ aunque estén en diferentes lados de la línea. Otra posibilidad es que hayas utilizado un tamaño de efecto ligeramente diferente al que has encontrado.

Entonces, "¿debería [molestarte] que la potencia sea pequeña?" Sí y no. Si se hace un análisis de potencia post-hoc tradicional (inválido), necesariamente se van a obtener valores como ése: el ejercicio es completamente desinformativo. Por otro lado, si nos tomamos en serio el análisis de potencia, un efecto significativo con una configuración de baja potencia significa básicamente que su efecto observado tiene que estar sesgado para ser mayor de lo que realmente es, por lo que debería confiar menos en los resultados.

-1voto

TauEpsilonChi Puntos 31

Denote $p$ el $p$ -valor de su prueba (como variable aleatoria) y fijar algunos $\alpha$ . Llamar al resultado de una prueba significativo o positivo cuando $p \leq \alpha$ . Tenemos $P(p \leq \alpha \,|\, H_0) \leq \alpha$ . Además, dejemos que $\beta$ sea tal que $P(p > \alpha \,|\, H_1) \leq \beta$ . Entonces $1-\beta$ es la potencia de la prueba.

Tratamiento de $H_0$ y $H_1$ como eventos (complementarios), el teorema de Bayes da: $$\frac{P(H_1 \, | \, p\leq\alpha)}{P(H_0 \,|\, p\leq\alpha)} = \frac{P(p\leq\alpha \,|\, H_1)}{P(p\leq\alpha \,|\, H_0)} \cdot \frac{P(H_1)}{P(H_0)} \geq \frac{1-\beta}{\alpha} \cdot \frac{P(H_1)}{P(H_0)}$$ Esto demuestra que las probabilidades del puesto para $H_1$ son una versión escalada de las probabilidades anteriores, con la fuerza de la escala a favor de $H_1$ que aumenta con $1-\beta$ . Esto significa que aprendemos más de una prueba positiva cuando $1-\beta$ es grande.

Para ilustrar mejor la situación, observe los intervalos de confianza (IC). Se puede argumentar que un mayor tamaño de la muestra hará que el IC sea más estrecho y, por tanto si la prueba fue significativa para una muestra más pequeña, también lo será para la muestra más grande. Sin embargo, también la ubicación del IC puede cambiar cuando incluimos más datos en nuestra muestra, lo que puede hacer que el resultado no sea significativo. También es concebible que la muestra más grande tenga un error estándar mucho mayor y, por lo tanto, el IC se amplíe de hecho. Se podría decir que un tamaño de muestra mayor da a los hechos más oportunidades de probarse a sí mismos.

Últimamente se ha producido un interesante debate sobre la interpretación de $p$ -valores, véase, por ejemplo:

[1] Colquhoun, "An investigation of the false discovery rate and the misinterpretation of p-values", Royal Society Open Science, 2014

[2] Colquhoun, "The Reproducibility Of Research And The Misinterpretation Of P Values", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337

[3] "¿Qué diría Cohen? Un comentario sobre $p < .005$ ", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/

En cuanto a su resultado particular, no estoy cualificado para juzgarlo. Utilizando sólo su $p$ -y la clasificación de [2], se encuentra entre "evidencia débil: merece la pena volver a mirar" y "evidencia moderada de un efecto real".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X