52 votos

Cumming (2008) afirma que la distribución de los valores de p obtenidos en las replicaciones sólo depende de la original p-valor. ¿Cómo puede ser verdadera?

He estado leyendo Geoff Cumming del papel de 2008 Replicación y $p$ Intervalos: $p$ valores de predecir el futuro sólo vagamente, pero los intervalos de confianza mucho mejor -- y estoy confundido por uno de sus reclamos. Este es uno de la serie de documentos donde Cumming argumenta en contra de las $p$-los valores de y en favor de los intervalos de confianza; mi pregunta es, sin embargo, no acerca de este debate y sólo se refiere a una demanda específica acerca de la $p$-valores. [Nota de que Cumming es bien conocido y de que el papel ha ~200 citas en Google Scholar: esto no es un "oscuro" de papel.]

Permítanme citar el resumen:

En este artículo se muestra que, si una inicial los resultados del experimento en dos colas $p= .05$, hay un $80\%$ posibilidad de que el de una cola $p$-valor de una replicación caerá en el intervalo de $(.00008, .44)$ $10\%$ de probabilidad de que $p < .00008$, y un $10\%$ de probabilidad de que $p > .44$. Sorprendentemente, el intervalo-que se llama un $p$ intervalo-este es amplia, sin embargo, amplias el tamaño de la muestra.

Cumming afirma que esta "$p$ intervalo", y de hecho toda la distribución de $p$-valores que se obtendría al replicar el experimento original (con el mismo tamaño de muestra fijo), se basan sólo en el original $p$valor $p_\mathrm{obt}$ y no dependen de que el verdadero efecto del tamaño, la potencia, el tamaño de la muestra, o cualquier otra cosa:

[...] la distribución de probabilidad de $p$ se puede derivar sin sabiendo o suponiendo un valor de $\delta$ (o poder). [...] No asumimos ningún tipo de conocimiento previo acerca de $\delta$, y sólo utilizamos la información $M_\mathrm{diff}$ [observada entre el grupo de diferencia] da acerca de $\delta$ la base para el cálculo para un determinado $p_\mathrm{obt}$ de la distribución de $p$ e de $p$ intervalos.

$\quad\quad\quad$ Cumming 2008

Estoy confundido por esto, porque a mí me parece que la distribución de $p$-valores depende fuertemente de energía, mientras que el original $p_\mathrm{obt}$ sobre su propio no da ninguna información sobre ella. Podría ser que el verdadero tamaño del efecto es $\delta=0$ y, a continuación, la distribución es uniforme; o tal vez el verdadero tamaño del efecto es enorme y debemos esperar que en su mayoría muy pequeñas $p$-valores. Por supuesto, uno puede comenzar con la hipótesis previa sobre el posible efecto de los tamaños y de integrar, pero Cumming parece alegar que esto no es lo que él está haciendo.

Pregunta: ¿exactamente Qué está pasando aquí?


Todo parece estar explicado en el propio documento y en su Anexo, pero hasta ahora he sido incapaz de entender y pensé que esto es lo suficientemente interesante como para plantear esta cuestión aquí para la discusión.

Tenga en cuenta que este tema se relaciona con esta pregunta: ¿Qué fracción de la repetición de experimentos tendrá un tamaño del efecto en el 95% de intervalo de confianza del primer experimento? donde yo recomiendo a todo el mundo a upvote @whuber la respuesta; Cumming tiene otro artículo acerca de la replicación y de la Cei: Cumming & Maillardet, 2006, Intervalos de Confianza y la Replicación: ¿Dónde Será la Próxima Media Otoño? - pero que uno es claro y no se me confundan.

Yo también tenga en cuenta que Cumming reclamación se repite varias veces en el año 2015 la Naturaleza de los Métodos de papel El spot $P$ valor genera resultados irreproducibles que algunos de ustedes podrían haber llegado a través de [ya ha ~100 citas en Google Scholar]:

[...] habrá una considerable variación en el $P$ valor de la repetición de experimentos. En realidad, los experimentos que rara vez se repite; no sabemos cómo es diferente la próxima $P$ podría ser. Pero es probable que podría ser muy diferente. Por ejemplo, independientemente de la potencia estadística de un experimento, si una sola replicar devuelve un $P$ valor de $0.05$, hay un $80\%$ de probabilidad de que se repita el experimento volvería a $P$ valor entre el $0$ $0.44$ (y un $20\%$ cambio [sic] que $P$ serían aún mayores).

(Nota, por cierto, ¿cómo, independientemente de si Cumming de la declaración es correcta o no, la Naturaleza de los Métodos papel cita erróneamente: de acuerdo a Cumming, sólo se $10\%$ de probabilidad por encima de $0.44$. Y sí, el papel dice "20% change". Debo añadir que no me gusta este trabajo?)

28voto

Geoff Cumming Puntos 181

Gracias por todas las discusiones interesantes! Cuando la escritura que de 2008 artículo, me tomó un tiempo para convencerme de que la distribución de la replicación p ( p valor dado por una réplica exacta de un estudio, es decir, un estudio que es exactamente el mismo, pero con una nueva muestra) es que sólo depende de p , dado por el estudio original. (En el papel que asume una distribución normal de la población y el muestreo al azar, y que nuestros estudios objetivo de estimar la media de la población.) Por lo tanto, el p en el intervalo (el 80% de la predicción intervalo de replicación p) es el mismo, cualquiera que sea el N, el poder, o verdadero tamaño del efecto de la original de estudio.

Seguro, que en primer lugar increíble. Pero nótese que mi declaración original se basa en el conocimiento de p a partir de la original de estudio. Pensar de esta manera. Supongamos que usted me diga que su original estudio ha encontrado p=.05. Me puede decir nada más sobre el estudio. Sé que el IC del 95% en el promedio de la muestra se extiende exactamente a cero (suponiendo que p se calculó para una hipótesis nula de cero). Por lo que su media de la muestra es MoE (la longitud de un brazo de ese 95% CI), porque es que la distancia desde cero. La distribución de muestreo de los medios a partir de estudios como el suyo ha desviación estándar de la MoE/1.96. Ese es el error estándar.

Considere la posibilidad de la media dada por una réplica exacta. La distribución de la replicación significa que tiene una media Ministerio de educación, es decir que la distribución está centrada en el original de la media de la muestra. Considerar la diferencia entre la media muestral y la replicación de un decir. Tiene varianza igual a la suma de las desviaciones de la media de los estudios como de su estudio original, y las repeticiones. Eso es el doble de la varianza de estudios como el de su estudio original, es decir, 2 x SE^2. Que es de 2 x (MoE/1.96)^2. Así que la SD de esa diferencia es SQRT(2) x MoE/1.96.

Por lo tanto, conocer la distribución de la replicación decir: su media es MoE y la SD es SQRT(2) x MoE/1.96. Seguro, la escala horizontal es arbitraria, sino que sólo necesitamos saber de esta distribución en relación con el CI de su estudio original. Como repeticiones, la mayoría de los medios (alrededor del 83%) caen en los que la original IC del 95%, y alrededor del 8% caerá por debajo de ella (es decir, por debajo de cero, si el original de su media fue >0) y el 8% mayor que la CI. Si sabemos donde una réplica media baja en relación a su original CI, podemos calcular su p - valor. Sabemos que la distribución de la replicación de los medios (en relación a su CI) por lo que podemos averiguar la distribución de la replicación p valor. La única suposición que estamos haciendo sobre la replicación es que no es exacta, es decir, proceden de la misma población, con el mismo tamaño del efecto, ya que su estudio original, y que N (y el diseño experimental) fue el mismo que en su estudio.

Todo lo anterior es sólo una reformulación del argumento en el artículo, sin imágenes.

Aún de manera informal, puede ser útil pensar en lo que p=.05 en el estudio original implica. Esto podría significar que usted tiene un estudio enorme, con un efecto pequeño tamaño, o un pequeño estudio con un gigante del tamaño del efecto. De cualquier manera, si usted repite que estudio (el mismo N, de una misma población), entonces sin duda, conseguir un poco diferente de la media de la muestra. Resulta que, en términos de la p valor, 'algo diferente' es la misma, si se tenía la enorme o el pequeño estudio. Así que, dime sólo su p valor y voy a decirle que su p intervalo.

Geoff

22voto

GeoMatt22 Puntos 1290

Resumen: El truco parece ser un enfoque Bayesiano, el cual supone una uniforme (Jeffreys) antes de que el parámetro oculto ($z_\mu$ en el apéndice B del documento, $\theta$ aquí).

Creo que puede haber un Bayesiano estilo de enfoque para obtener las ecuaciones dadas en el papel del apéndice B.

Como yo lo entiendo, el experimento se reduce a una estadística $z\sim\mathrm{N}_{\theta,1}$. La media de $\theta$ de la distribución de muestreo es desconocida, pero se desvanece bajo la hipótesis nula, $\theta\mid{}H_0=0$.

Llame a la observada experimentalmente estadística $\hat{z}\mid\theta\sim\mathrm{N}_{\theta,1}$. Entonces, si suponemos un "uniforme" (incorrecto) antes de a $\theta\sim1$, el Bayesiano posterior es $\theta\mid\hat{z}\sim\mathrm{N}_{\hat{z},1}$. Si luego de la actualización de la original distribución de muestreo por la marginación de más de $\theta\mid\hat{z}$, la parte posterior se convierte en $z\mid\hat{z}\sim\mathrm{N}_{\hat{z},2}$. (El duplicado de la varianza se debe a la convolución de Gaussianas.)

Matemáticamente al menos, esto parece funcionar. Y explica cómo la $\frac{1}{\sqrt{2}}$ factor de "por arte de magia" parece ir de la ecuación B2 a la ecuación B3.


Discusión

¿Cómo puede este resultado puede conciliarse con el estándar de la hipótesis nula marco de pruebas? Una posible interpretación es la siguiente.

En el marco de trabajo estándar, la hipótesis nula es, en cierto sentido, el "default" (por ejemplo, hablamos de "rechazar la nula"). En el anterior contexto Bayesiano esto sería un no-uniforme antes de que prefiere $\theta=0$. Si tomamos esto como $\theta\sim\mathrm{N}_{0,\lambda^2}$, entonces la varianza $\lambda^2$ representa nuestro antes de la incertidumbre.

La realización de esta previa a través del análisis, nos encontramos con $$\theta\sim\mathrm{N}_{0,\lambda^2} \implies \theta\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},\delta^2} \,,\, z\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},1+\delta^2} \,,\, \delta^2\equiv\tfrac{1}{1+\lambda^{-2}}\in[0,1]$$ A partir de esto podemos ver que en el límite de $\lambda\to\infty$ recuperamos el análisis anterior. Pero en el límite de $\lambda\to{0}$ nuestra "posteriores" convertido en el null, $\theta\mid\hat{z}\sim\mathrm{N}_{0,0}$$z\mid\hat{z}\sim\mathrm{N}_{0,1}$, de modo que recuperar el resultado estándar, ${p}\mid{\hat{z}}\sim\mathrm{U}_{0,1}$.


Apéndice

Como se pide en los comentarios, aquí es una parcela para la comparación. Esta es una forma relativamente sencilla de la aplicación de las fórmulas en la hoja de papel. Sin embargo, voy a escribir esto para asegurar que no hay ambigüedad.

Deje $p$ denotar la cara el valor de p para el estadístico $z$, y denotan su (posterior) CDF por $F[u]\equiv\Pr\big[\,p\leq{u}\mid{\hat{z}}\,\big]$. Entonces la ecuación B3 de la apéndice es equivalente a $$F[p]=1-\Phi\left[\tfrac{1}{\sqrt{2}}\left(z[p]-\hat{z}\right)\right] \,,\, z[p]=\Phi^{-1}[1-p]$$ donde $\Phi[\,\,]$ es el estándar normal de la CDF. La correspondiente densidad es entonces $$f\big[p\big]\equiv{F^\prime}\big[p\big]=\frac{\phi\Big[(z-\hat{z})/\sqrt{2}\,\Big]}{\sqrt{2}\,\phi\big[z\big]}$$ donde $\phi[\,\,]$ es el estándar PDF normal, y $z=z[p]$ como en el CDF fórmula. Por último, si denotamos por a $\hat{p}$ a la observada a dos caras valor de p correspondiente a $\hat{z}$, luego tenemos $$\hat{z}=\Phi^{-1}\Big[1-\tfrac{\hat{p}}{2}\Big]$$

El uso de estas ecuaciones da la siguiente figura, la cual debe ser comparable a la del papel, la figura 5 citado en la pregunta. "Reproduction" of Cumming (2008) Fig. 5 via posted formulas.

(Este fue producido por el siguiente código de Matlab; ejecutar aquí.)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X