6 votos

Frecuentista propiedades de los valores de p en relación con el error de tipo I

Esta pregunta está relacionada con la frecuentista propiedades de los valores de p y su relación con el tipo de error y por qué los resultados de una simulación en línea que difieren de lo que yo hubiera esperado.

Supongamos que realizar un experimento y hacer pruebas de hipótesis a un nivel de significación de 0,05. A continuación, calcular el p-valor. Si es menor de 0,05 luego me rechazar la hipótesis nula, si es mayor que 0.05, entonces acepto la hipótesis nula (como por Neyman-Pearson, la prueba de hipótesis). Ahora, si he repetido este experimento cientos de veces (cada vez que aceptar o rechazar la hipótesis nula en 0,05), entonces el error de tipo I (probabilidad de rechazar una verdadera hipótesis nula) debe ser de alrededor de 5% que no es correcto?

Quería poner a prueba mi comprensión de lo que he usado este applet de java: http://www.stat.duke.edu/~berger/applet2/pvalue.html para simular exactamente como un experimento. Yo guardaba todo en su defecto los niveles en el applet, excepto en la barra superior donde he cambiado el rango de valores de p de 0 a 0.05. Esencialmente, esto es lo que me permite rechazar todos aquellos experimentos en los que el valor de p fue < 0.05 y averiguar cuántas H0 fueron incorrectamente rechazado (H0 era realmente cierto) y cuántos H0, se ha rechazado (H1 era realmente cierto).

Yo habría asumido que iba a obtener alrededor de 5% de los verdaderos valores nulos; sin embargo, cuando me encontré, me sale alrededor de 12% H0, y el 88% H1, lo que significa que el 12% de los números que fueron rechazadas verdaderos valores nulos, mientras que el 88% eran falsas, esto es un error de tipo 1 de 12%. Lo que me estoy perdiendo? Por favor alguien puede explicar por qué el applet se acercó con estos resultados?

7voto

phloopy Puntos 4285

Yo no puedo por la vida de mí conseguir que el applet se ejecute en el navegador, así que voy a tratar de dar un ejemplo con R en su lugar.

Como se señaló en los comentarios, parece que lo que provocó la confusión es que el applet se ejecuta en tanto la alternativa y la hipótesis nula. Para comprobar que el tipo de la tasa de error realmente es $0.05$ usted necesita para ejecutarlo bajo la hipótesis nula sólo.

Aquí está un ejemplo en el que utilizamos el $t$-prueba para probar si la media de $\mu$ de una distribución normal es igual a $0$. Es decir, que la prueba de $H_0: \mu=0.$ Podemos simular $10,000$ de las muestras de ${\rm N}(0,\sigma^2)$ y calcular el $p$-valor para cada muestra.

También podemos simular $10,000$ de las muestras de la ${\rm N}(0.25,\sigma^2)$ ${\rm N}(0.5,\sigma^2)$ distribuciones y calcular el $p$-valores.

set.seed(201208)
B<-10000
p.values1<-p.values2<-p.values3<-vector(length=B)

for(i in 1:B)
{
    x1<-rnorm(25)
    p.values1[i]<-t.test(x1)$p.value

    x2<-rnorm(25,0.25)
    p.values2[i]<-t.test(x2)$p.value

    x3<-rnorm(25,0.5)
    p.values3[i]<-t.test(x3)$p.value
}   

Ahora podemos calcular la proporción de muestras que conducen a un rechazo de $H_0: \mu=0$ a $5~\%$ nivel de:

sum(p.values1<=0.05)/B
sum(p.values2<=0.05)/B
sum(p.values3<=0.05)/B

En este caso, las respuestas se $0.505$ bajo la hipótesis nula ($\approx 0.05$, tal como sería de esperar!), $0.2187$ al $\mu=0.25$ $0.6754$ al $\mu=0.5$.

Podemos visualizar los resultados mediante el trazado de los histogramas de las $p$-valores: Histograms

Para$\mu=0$, $p$- los valores están distribuidos de manera uniforme en $\lbrack 0,1\rbrack$. En virtud de las alternativas, la distribución de la $p$-valores tiene más masa más cerca de $0$ (tanto más cuanto más lejos de $0$ que $\mu$ es).

También podemos comparar la distribución de la $p$-valores de caja y bigotes-parcelas: Boxplots

Esperemos que se desprende de la imagen que la probabilidad de rechazo, es decir, la probabilidad de que el $p$-valor es inferior a $0.05$ depende de si la hipótesis nula o hipótesis alternativa es verdadera. En este caso, sólo debe esperar que la tasa de rechazo a ser $0.05$ al $\mu=0$.

El código para la producción de estas parcelas es:

#Boxplots:
boxplot(p.values1,p.values2,p.values3,names=c("mu=0","mu=0.25","mu=0.5"))

# Histograms:
par(mfrow=c(1,3))
hist(p.values1,main="mu=0")
hist(p.values2,main="mu=0.25")
hist(p.values3,main="mu=0.5")

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X