Supongo que se refiere al valor p del coeficiente estimado $\hat{\beta}_1$ . (pero el razonamiento sería similar para $\hat{\beta}_0$ ).
La teoría de la regresión lineal nos dice que, si se cumplen las condiciones necesarias, entonces conocemos la distribución de ese estimador, es decir, es normal, tiene media igual a la ''verdadera'' (pero desconocida) $\beta_1$ y podemos estimar la varianza $\sigma_{\hat{\beta}_1}$ . Es decir $\hat{\beta}_1 \sim N(\beta_1, \sigma_{\hat{\beta}_1})$
Si quiere ''demostrar'' (ver ¿Qué ocurre si no se rechaza la hipótesis nula? para más detalles) que el verdadero $\beta_1$ es distinto de cero, entonces se asume lo contrario, es decir $H_0: \beta_1=0$ .
Entonces, por lo anterior, sabes que, si $H_0$ es cierto que $\hat{\beta}_1 \sim N(\beta_1=0, \sigma_{\hat{\beta}_1})$ .
En el resultado de la regresión se observa un valor para $\hat{\beta_1}$ y puedes calcular su valor p. Si ese valor p es menor que el nivel de significación que usted decida (por ejemplo, 5%), entonces rechazará $H_0$ es considerar $H_1$ como ''probado''.
En su caso el "verdadero $\beta_1$ es $\beta_1=0.5$ , así que obviamente $H_0$ es falso, por lo que se espera que los valores p sean inferiores a 0,05.
Sin embargo, si se observa la teoría sobre la comprobación de hipótesis, entonces se definen los errores de ''tipo II'', es decir, aceptar $H_0$ cuando es falso. Así que en algunos casos puede aceptar $H_0$ aunque sea falso, por lo que puede tener valores p por encima de 0,05 aunque $H_0$ es falso.
Por lo tanto, aunque en su verdadero modelo $\beta_1=0.5$ puede ser que acepte la $H_0: \beta_1=0$ o que cometa un error de tipo II.
Por supuesto que se quiere minimizar la probabilidad de cometer esos errores de tipo II en los que se acepta que $H_0: \beta_1=0$ se sostiene mientras que en realidad se sostiene que $\beta=0.5$ .
El tamaño del error de tipo II está relacionado con la potencia de su prueba. Minimizar el error de tipo II significa maximizar la potencia de la prueba.
Puede simular el error de tipo II como en el código R de abajo:
Tenga en cuenta que:
- si toma $\beta_1$ más allá del valor bajo $H_0$ (cero) entonces el error de tipo II disminuye (ejecute el código R con, por ejemplo, beta_1=2) lo que significa que la potencia aumenta.
- Si se pone beta_1 igual al valor bajo $H_0$ entonces se encuentra $1-\alpha$ .
Código R:
x = rnorm(100,5,1)
b = 0.5
beta_0= 2.5
beta_1= 0.5
nIter<-10000
alpha<-0.05
accept.h0<-0
for ( i in 1:nIter) {
e = rnorm(100,0,3)
y = beta_0 + beta_1*x + e
m1 = lm(y~x)
p.value<-summary(m1)$coefficients["x",4]
if ( p.value > alpha) accept.h0<- accept.h0+1
}
cat(paste("type II error probability: ", accept.h0/nIter))
5 votos
La frase "confiar en el valor p" me parece extraña (¿en qué confiamos para que lo haga?). ¿Es consciente de que (i) el valor p es una variable aleatoria? (i) que bajo la nula tiene una distribución uniforme? (iii) que bajo la alternativa no hay un "valor p poblacional" que estás estimando? (es decir, a medida que aumenta el tamaño de la muestra, no converge en un valor concreto, sino que tiende a reducirse de forma típica, aunque sigue habiendo alguna posibilidad -aunque decreciente- de que los valores sean grandes)
0 votos
En la práctica, al analizar un conjunto de datos, informamos del valor p de un coeficiente e indicamos si es estadísticamente significativo a un nivel alfa determinado. Pero sólo estamos analizando un conjunto de datos (una muestra de la población). Si volvemos a tomar una muestra de 100 sujetos, ajustamos la regresión, de nuevo, e informamos de un valor p superior al nivel alfa, entonces el coeficiente no es estadísticamente significativo. Estoy confundido sobre cómo funciona esto en la práctica (es decir, en los estudios médicos cuando se analiza una sola muestra normalmente) y se interpreta esta diferencia.