Recientemente, he encontrado en un papel una declaración que valores de p deben ser distribuidos uniformemente. Creen a los autores, pero no puede entender por qué es así.
Respuestas
¿Demasiados anuncios?Para aclarar un poco. El p-valor es distribuido uniformemente cuando la hipótesis nula es verdadera y todas las demás supuestos se cumplen. La razón de esto es realmente la definición de alfa como la probabilidad de un error tipo I. Queremos que la probabilidad de rechazar una verdadera hipótesis nula para ser alfa, rechazamos cuando la observó $\text{p-value} < \alpha$, la única manera en que esto sucede para cualquier valor de alfa es cuando el p-valor proviene de una distribución uniforme. El punto entero de la correcta utilización de la distribución (normal, t, f, chisq, etc.) es de transformar a partir de la estadística de prueba para un uniforme p-valor. Si la hipótesis nula es falsa, entonces la distribución de la p-valor (ojalá) ser más ponderado a 0.
El Pvalue.norm.sim
y Pvalue.binom.sim
funciones en el TeachingDemos paquete de R simular varios conjuntos de datos, calcular los valores de p y de la trama para demostrar esta idea.
Vea también:
Murdoch, D, Tsai, y, y Adcock, J (2008). P-Valores son Aleatorios Variables. El Estadístico Americano, 62, 242-245.
algunos detalles más.
** Edit **
Ya que la gente sigue leyendo esta respuesta y comentar, yo pensé que iba a address @whuber del comentario.
Es cierto que cuando se utiliza un compuesto hipótesis nula como $\mu_1 <= \mu_2$ que los p-valores sólo serán distribuidos de manera uniforme cuando el 2 significa que son exactamente iguales y no será uniforme si $\mu_1$ es cualquier valor que es menor que $\mu_2$. Esto puede verse fácilmente el uso de la Pvalue.norm.sim
función y configuración para hacer una sola cara de la prueba y la simulación con la simulación y la hipótesis de medios diferentes (pero en la dirección para hacer el null true).
Tan lejos como la teoría estadística va, esto no importa. Considere si me dijeron que yo soy más alto que todos los miembros de su familia, una manera de poner a prueba esta afirmación sería comparar mi altura a la altura de cada uno de los miembros de su familia de una en una. Otra opción sería la de encontrar el miembro de su familia que es el más alto y comparar su altura con la mía. Si yo soy más alto que el que una persona, entonces yo soy más alto que el resto, como bien y mi reclamo es cierto, si yo no soy más que una persona, a continuación, mi afirmación es falsa. Las pruebas de un composit null puede ser visto como un proceso similar, en lugar de probar todas las combinaciones posibles donde $\mu_1 <= \mu_2$ podemos probar la igualdad parte, porque si podemos rechazar ese $\mu_1 = \mu_2$ a favor de las $\mu_1 > \mu_2$, entonces sabemos que también podemos rechazar todas las posibilidades de $\mu_1 < \mu_2$. Si nos fijamos en la distribución de los valores de p para los casos en que $\mu_1 < \mu_2$, entonces la distribución no sea perfectamente uniforme, pero se tienen más valores más cercanos a 1 que a 0 lo que significa que la probabilidad de un error tipo I será menor que el $\alpha$ valor de lo que es un conservador de la prueba. El uniforme se convierte en la limitación de la distribución como $\mu_1$ se acerca a $\mu_2$ (a las personas que son más actuales en el stat términos de teoría podría probablemente este estado mejor en términos de la distribución de la supremem o algo así). Así, mediante la construcción de nuestra prueba, asumiendo la igualdad de parte de el nula, incluso cuando el null es compuesto, entonces estamos desiging nuestra prueba para tener una probabilidad de un error tipo I que es en la mayoría de las $\alpha$ para las condiciones donde la nula es verdadera.
Bajo la hipótesis nula, la prueba estadística $T$ tiene la distribución $F(t)$ (p. ej., normal estándar). Nos muestran que el valor de p $P=F(T)$ tiene una distribución de probabilidad %#% $ #% en otras palabras, $$\begin{equation*} \Pr(P < p) = \Pr(F^{-1}(P) < F^{-1}(p)) = \Pr(T < t) \equiv p; \end{equation*}$ se distribuye uniformemente. Este tiene tanto tiempo como $P$ es inversible, una condición necesaria que es que $F(\cdot)$ no es una variable aleatoria discreta.
Este resultado es general: la distribución de un CDF invertible de una variable aleatoria es uniforme en $T$.
Simulación simple de distribución de los valores de p en el caso de regresión lineal entre dos variables independientes:
# estimated model is: y = a0 + a1*x + e
obs<-100 # obs in each single regression
Nloops<-1000 # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments
for(i in seq_along(output)){
x<-rnorm(obs)
y<-rnorm(obs)
# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1
if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed
}
plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform