Estoy tratando de entender la lógica detrás de la ANOVA de prueba F de Análisis de Regresión Lineal Simple. La pregunta que tengo es como sigue. Cuando el valor de F, es decir,
MSR/MSE
es grande aceptamos el modelo como significativo. Cuál es la lógica detrás de esto?
Respuesta
¿Demasiados anuncios?En el caso más simple, cuando sólo tiene un predictor (regresión simple), decir $X_1$, $F$- prueba indica si la inclusión de $X_1$ explica una mayor parte de la varianza observada en $Y$ en comparación con el modelo nulo (interceptar). La idea es, entonces, la prueba de si el agregado de la varianza explicada (varianza total, TSS, menos varianza residual, RSS) es lo suficientemente grande como para ser considerada como una "cantidad significativa". Aquí estamos comparando un modelo con un indicador o variable explicativa, a una línea de base que es "ruido" (nada, excepto el gran media).
Del mismo modo, se puede calcular un $F$ estadística en una regresión múltiple configuración: En este caso, equivale a una prueba de todos los predictores incluidos en el modelo, que bajo el HT marco significa que nos preguntamos si alguna de ellas es útil en la predicción de la variable de respuesta. Esta es la razón por la que usted puede encontrar situaciones en las que el $F$-prueba para todo el modelo es significativo, mientras que algunas de las $t$ o $z$-pruebas asociadas a cada coeficiente de regresión no lo son.
El $F$ estadística parece
$$ F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)},$$
where $p$ is the number of model parameters and $n$ the number of observations. This quantity should be referred to an $F_{p-1,p-n}$ distribution for a critical or $p$-valor. Se aplica por el simple modelo de regresión así, y obviamente guarda cierta analogía con el clásico de ANOVA marco.
Nota al margen. Cuando usted tiene más de un predictor, a continuación, usted puede preguntarse si se considera solo un subconjunto de los predictores "reduce" la calidad de ajuste del modelo. Esto corresponde a una situación en la que consideramos modelos anidados. Esta es exactamente la misma situación que la anterior, donde se compara un determinado modelo de regresión con un null modelo (no hay predictores incluidos). Con el fin de evaluar la reducción en la varianza explicada, podemos comparar la suma residual de los cuadrados (RSS) a partir de la modelo (que es, lo que queda inexplicable una vez que se cuenta para el efecto de factores presentes en el modelo). Deje $\mathcal{M}_0$ $\mathcal{M}_1$ denotar el modelo base (con $p$ parámetros) y de un modelo con un adicional de predicción ($q=p+1$ parámetros), entonces si $\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0}$ es pequeña, consideramos que el modelo más pequeño funciona tan bien como el más grande. Una buena estadística a utilizar sería la relación de las SS, $(\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0})/\text{RSS}_{\mathcal{M}_0}$, ponderado por sus grados de libertad ($p-q$ para el numerador, y $n-p$ para el denominador). Como ya se dijo, se puede demostrar que esta cantidad sigue un $F$ (o de Fisher-Snedecor) distribución $p-q$ $n-p$ grados de libertad. Si la observó $F$ es mayor que el correspondiente $F$ cuantil en un determinado $\alpha$ (normalmente, $\alpha=0.05$), entonces llegaríamos a la conclusión de que el modelo más grande, hace un "mejor trabajo". (Esto no implica que el modelo es correcto, desde un punto de vista práctico!)
Una generalización de la idea es la prueba de razón de verosimilitud.
Si usted está usando R, se puede jugar con los conceptos anteriores, como este:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2