5 votos

¿Por qué nos fiamos del valor p cuando ajustamos una regresión a una sola muestra?

A continuación tengo un código que construye un modelo lineal para un conjunto de datos:

x = rnorm(100,5,1)
b = 0.5
e = rnorm(100,0,3)
beta_0= 2.5
beta_1= 0.5
y = beta_0 + beta_1*x + e
plot(x,y)
m1 = lm(y~x)
abline(m1)
summary(m1)

Cuando ejecuto este bloque de código varias veces, el valor p puede variar desde 0,05 hasta alrededor de ~-0,7. Así que mi pregunta es ¿por qué confiamos en que un coeficiente es estadísticamente significativo basándonos sólo en una muestra cuando puede variar al ajustarlo en una muestra diferente?

5 votos

La frase "confiar en el valor p" me parece extraña (¿en qué confiamos para que lo haga?). ¿Es consciente de que (i) el valor p es una variable aleatoria? (i) que bajo la nula tiene una distribución uniforme? (iii) que bajo la alternativa no hay un "valor p poblacional" que estás estimando? (es decir, a medida que aumenta el tamaño de la muestra, no converge en un valor concreto, sino que tiende a reducirse de forma típica, aunque sigue habiendo alguna posibilidad -aunque decreciente- de que los valores sean grandes)

0 votos

En la práctica, al analizar un conjunto de datos, informamos del valor p de un coeficiente e indicamos si es estadísticamente significativo a un nivel alfa determinado. Pero sólo estamos analizando un conjunto de datos (una muestra de la población). Si volvemos a tomar una muestra de 100 sujetos, ajustamos la regresión, de nuevo, e informamos de un valor p superior al nivel alfa, entonces el coeficiente no es estadísticamente significativo. Estoy confundido sobre cómo funciona esto en la práctica (es decir, en los estudios médicos cuando se analiza una sola muestra normalmente) y se interpreta esta diferencia.

3voto

fcop Puntos 2891

Supongo que se refiere al valor p del coeficiente estimado $\hat{\beta}_1$ . (pero el razonamiento sería similar para $\hat{\beta}_0$ ).

La teoría de la regresión lineal nos dice que, si se cumplen las condiciones necesarias, entonces conocemos la distribución de ese estimador, es decir, es normal, tiene media igual a la ''verdadera'' (pero desconocida) $\beta_1$ y podemos estimar la varianza $\sigma_{\hat{\beta}_1}$ . Es decir $\hat{\beta}_1 \sim N(\beta_1, \sigma_{\hat{\beta}_1})$

Si quiere ''demostrar'' (ver ¿Qué ocurre si no se rechaza la hipótesis nula? para más detalles) que el verdadero $\beta_1$ es distinto de cero, entonces se asume lo contrario, es decir $H_0: \beta_1=0$ .

Entonces, por lo anterior, sabes que, si $H_0$ es cierto que $\hat{\beta}_1 \sim N(\beta_1=0, \sigma_{\hat{\beta}_1})$ .

En el resultado de la regresión se observa un valor para $\hat{\beta_1}$ y puedes calcular su valor p. Si ese valor p es menor que el nivel de significación que usted decida (por ejemplo, 5%), entonces rechazará $H_0$ es considerar $H_1$ como ''probado''.

En su caso el "verdadero $\beta_1$ es $\beta_1=0.5$ , así que obviamente $H_0$ es falso, por lo que se espera que los valores p sean inferiores a 0,05.

Sin embargo, si se observa la teoría sobre la comprobación de hipótesis, entonces se definen los errores de ''tipo II'', es decir, aceptar $H_0$ cuando es falso. Así que en algunos casos puede aceptar $H_0$ aunque sea falso, por lo que puede tener valores p por encima de 0,05 aunque $H_0$ es falso.

Por lo tanto, aunque en su verdadero modelo $\beta_1=0.5$ puede ser que acepte la $H_0: \beta_1=0$ o que cometa un error de tipo II.

Por supuesto que se quiere minimizar la probabilidad de cometer esos errores de tipo II en los que se acepta que $H_0: \beta_1=0$ se sostiene mientras que en realidad se sostiene que $\beta=0.5$ .

El tamaño del error de tipo II está relacionado con la potencia de su prueba. Minimizar el error de tipo II significa maximizar la potencia de la prueba.

Puede simular el error de tipo II como en el código R de abajo:

Tenga en cuenta que:

  • si toma $\beta_1$ más allá del valor bajo $H_0$ (cero) entonces el error de tipo II disminuye (ejecute el código R con, por ejemplo, beta_1=2) lo que significa que la potencia aumenta.
  • Si se pone beta_1 igual al valor bajo $H_0$ entonces se encuentra $1-\alpha$ .

Código R:

x = rnorm(100,5,1)
b = 0.5
beta_0= 2.5
beta_1= 0.5

nIter<-10000
alpha<-0.05

accept.h0<-0

for ( i in 1:nIter) {
  e = rnorm(100,0,3)

  y = beta_0 + beta_1*x + e

  m1 = lm(y~x)
  p.value<-summary(m1)$coefficients["x",4]

  if ( p.value > alpha) accept.h0<- accept.h0+1 
}

cat(paste("type II error probability: ", accept.h0/nIter))

3voto

Nixit Patel Puntos 34

"Confiar" en el valor p puede muy bien significar malinterpretarlo. Se crea un modelo con un error considerable y a veces la regresión detectará la relación lineal, otras veces no. El riesgo se determina eligiendo el valor p-umbral alfa.

En el caso que has propuesto. Cada valor p por debajo de 0,05 es "correcto", y cada uno por encima de 0,05 carece de observaciones. Pruebe con muestras más grandes, entonces n=100, y con el aumento del número encontrará la disminución de los valores p por encima de 0,05. Así que su pregunta se refiere esencialmente a la potencia de la prueba.

Para encontrar una correlación significativa entre x e y con una potencia del 90% tiene que haber una correlación de al menos r=0,31

> library(pwr)
> pwr.r.test(n=100, sig.level = 0.05, power=0.9)

     approximate correlation power calculation (arctangh transformation) 

              n = 100
              r = 0.3164205
      sig.level = 0.05
          power = 0.9
    alternative = two.sided

La correlación de sus datos está en torno a 0,16. Así que el problema no es la confianza en los valores p, sino que tu "estudio" tiene una potencia muy baja.

Encuentre una muestra de n=500 para ver los valores p "erróneos" alrededor de uno de cada veinte:

> pwr.r.test(r=0.16, power=.95)

     approximate correlation power calculation (arctangh transformation) 

              n = 501.0081
              r = 0.16
      sig.level = 0.05
           power = 0.95
     alternative = two.sided

Lección aprendida: Nunca confíes en un valor p no significativo sin un buen análisis de potencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X