4 votos

Prueba ANOVA Interpretación del valor p

model = lm(Sepal.Width ~ Sepal.Length + Petal.Length, data = iris)
> summary(model)

Call:
lm(formula = Sepal.Width ~ Sepal.Length + Petal.Length, data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.86412 -0.21142  0.00315  0.20406  0.73806 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   1.03807    0.28817   3.602 0.000431 ***
Sepal.Length  0.56119    0.06533   8.590 1.16e-14 ***
Petal.Length -0.33527    0.03065 -10.940  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3235 on 147 degrees of freedom
Multiple R-squared:  0.4564,    Adjusted R-squared:  0.449 
F-statistic: 61.71 on 2 and 147 DF,  p-value: < 2.2e-16

Tengo un modelo de regresión $Y_i = \beta_0 + \beta_1 * SepalLength_i + \beta_2 * PetalLength_i + \epsilon_i$ . Observando la columna Pr(>|t|), sé que se trata de los valores p de una prueba t para la significación de un correspondiente $\beta_i$ . Por ejemplo, el valor p 1,16e-14 corresponde a una prueba t para $H_0: \beta_1 = 0$ v.s $H_1: \beta_1 \neq 0$ . En cuanto al valor p asociado al estadístico F (valor p: < 2,2e-16) que corresponde a la prueba de $H_0: \beta_1 = \beta_2 = 0$ v.s $H_1:$ al menos uno de $\beta_1 or \beta_2 \neq 0$ .

> anova(model)
Analysis of Variance Table

Response: Sepal.Width
              Df  Sum Sq Mean Sq F value  Pr(>F)    
Sepal.Length   1  0.3913  0.3913   3.738 0.05511 .  
Petal.Length   1 12.5284 12.5284 119.689 < 2e-16 ***
Residuals    147 15.3872  0.1047                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Mirando la tabla ANOVA, ¿cómo interpreto la última columna con los valores p? ¿Qué hipótesis estoy comprobando?

2voto

AdamSane Puntos 1825

Esa tabla F se construye a partir de sumas secuenciales de cuadrados ( Tipo I ); usted está considerando efectivamente una prueba de cada efecto dado que los anteriores están en el modelo. Así que usted prueba la longitud del sépalo como si la longitud del pétalo no estuviera allí (compárelo con una regresión sólo sobre la longitud del sépalo), pero usted prueba la longitud del pétalo dado que la longitud del sépalo está presente.

En cambio, la tabla de regresión anterior correspondería a cada coeficiente que se comprueba con todos los demás términos del modelo, sin importar el orden en que estén.

Observe que la última fila de ambas tablas debería dar el mismo valor p (en su ejemplo, es la variable "longitud de los pétalos", y así es)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X