Cuando se utiliza el comando drop1 en R para la construcción del modelo, se dice que debe descartarse la variable con el menor valor AIC. ¿Lo que podría ser la razón de la misma? Sé charlas AIC sobre pérdida de la información y un AIC menor valor es mejor, pero dejando caer una variable con AIC baja parece contra intuitivo. ¿Puede alguien por favor explique la razón de hacerlo?
Respuesta
¿Demasiados anuncios?El dado de la AIC de la drop1
se refiere a todo el modelo - no a una variable, por lo que el resultado indica que la variable a eliminar con el fin de obtener el modelo con menor AIC. Por ejemplo, con la incorporada en el conjunto de datos swiss
lm1 <- lm(Fertility ~ ., data = swiss)
drop1(lm1, test = "F") # So called 'type II' anova
Single term deletions
Model:
Fertility ~ Agriculture + Examination + Education + Catholic +
Infant.Mortality
Df Sum of Sq RSS AIC F value Pr(>F)
<none> 2105.0 190.69
Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 *
Examination 1 53.03 2158.1 189.86 1.0328 0.315462
Education 1 1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic 1 447.71 2552.8 197.75 8.7200 0.005190 **
Infant.Mortality 1 408.75 2513.8 197.03 7.9612 0.007336 **
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
Aquí, la eliminación de Examination
producirá el modelo con menor AIC
En una nota relacionada, aunque puede ser mejor el uso de AIC que los valores de p, se considera una mala práctica para el uso de cualquier modelo automático de selección de algoritmos: Algoritmos automáticos de selección de modelo