De regresión paso a paso es generalmente un imprudente enfoque, aunque comúnmente utilizados y publicados. Para el apoyo a la inferencia, la evaluación de compatibilidad con el modelo y el ajuste del modelo, la lata de ArcGIS herramientas no son una buena plataforma para la especificación de un modelo estadístico. Una talla se adapta a todas enfoque para ajustar modelos de regresión no es nunca una buena idea.
El mensaje sobre las flaquezas de regresión paso a paso está siendo empujado por algunos de los actuales grandes en estadística y biometría (Harrell, Bolker, Bivand, Cressie, Hastie, Friedman, ...). Creo que estas limitaciones se aplican igualmente a paulatino de la AIC, porque es un delantero procedimiento de selección. Tenga en cuenta que la intención original detrás de la AIC fue la prueba de hipótesis, el uso de los modelos de la competencia, no la selección de características.
Algunos de los problemas identificados con el paso a paso enfoques son:
- El r-cuadrado de valores se manifiesta en relación a la población de la muestra
- La prueba estadística no conservan la correcta distribución (F,
chi-cuadrado) lo que se traduce en una deflación de los valores de p y estándar
errores.
- Correcciones de Bonferroni son demasiado conservador
- Los coeficientes de regresión son más parciales y marginales de las variables
son más propensos a ser incluido si el coeficiente es
sobrevalorado y excluidos si subestimado.
- La eliminación de "insignificante" variables de conjuntos de sus coeficientes a cero,
que puede ser inverosímil.
El consejo general es el ajuste de un modelo completo, sólo quitar parámetros, si α > 0.5, si el signo (+/-) no es sensible o si un coeficiente de 0 es plausible. Uno debe tomar en cuenta la colinealidad mediante la combinación de variables (a través de la función matemática o de la PCA de reducción).
Si uno realmente necesita para reducir el espacio de parámetros (por ejemplo,., para la estimación de los efectos), a continuación, un paso hacia abajo (hacia atrás de selección) es muy recomendable. Hacia atrás la eliminación métodos pueden ser implementados en R usando el "fastbw" función en el "rms" de la biblioteca. Como recomiendan por @whuber, yo recomiendo explorar un LAZO de regresión. Si usted se siente cómodo dejando que los datos se ajustan al modelo, se podría implementar un Modelo Bayesiano un Promedio de enfoque. Una Metropolis Hastings algoritmo es una buena opción cuando el espacio de parámetros es grande. El R paquetes "BMA" y "BMS" tiene bastante simple implementaciones para el Modelo Bayesiano de Selección.
Aquí es un simple método, implementado en R, para la selección de parámetro(s) con un p < 0,05, utilizando un modelo lineal generalizado. Esto podría ser utilizado para eliminar falsos variables independientes. Sería fácil adaptar esto para un mínimos Cuadrados Ordinarios, pero, en general, en este caso, me gustaría utilizar una máxima verosimilitud. Yo creo que en esto como en más de una agarrar la bolsa enfoque de paso a paso. Sin embargo, me gustaría evaluar el parámetro(s) coefficents antes de la aplicación de un sistema automático de selección de procedimiento como este.
Crear algunos datos de ejemplo con una muy significativa la variable (x4)
x1 <- rnorm(10); x2 <- rnorm(10); x3 <- rnorm(10)
y <- rnorm(10)
x4 <- y + 5
( dat <- as.data.frame(cbind(x1,x2,x3,x4,y)) )
Especificar un Modelo Lineal Generalizado (GLM)
model <- glm(y ~ x1 + x2 + x3 + x4, data = dat)
round(summary(model)$coeff, 4)
El uso de p-valor de la prueba t para seleccionar compatible parámetro(s)
( sel.x <- summary(model)$coeff[-1,4] < 0.05 )
( sig.x <- names(sel.x)[sel.x == TRUE] )
Especificar el nuevo GLM con los parámetros seleccionados
sig.model <- glm(reformulate(sig.x, response="y"), data = dat)
round(summary(sig.model)$coeff, 4)
round(anova(model, sig.model),4)