La regresión por pasos hacia delante es un método popular, pero he encontrado al menos tres versiones diferentes. Me preguntaba cuál es la más popular y cuál está implementada en R.
-
Sea p sea el número total de covariables. Una versión afirma que, dado k se han seleccionado las covariables, busque la de p−k covariables más correlacionadas con el residuo. A continuación, incluya esta variable y realice una regresión del antiguo residuo sobre esta nueva variable, obteniendo un nuevo residuo. Mientras tanto, mantenga todas las k coeficientes ajustados iguales.
-
Otra versión difiere de la primera en que, tras incluir la nueva variable, ajusta la respuesta ˆy en el k+1 variables. En otras palabras, el k las covariables incluidas anteriormente también tienen coeficientes actualizados.
-
También he encontrado una versión como la siguiente. Para cada uno de los p−k covariables, considere el modelo aumentado formado por la adición de esta covariable a la k covariables originales. A continuación, realice una regresión de la respuesta y en el {\em k+1 covariables. Entre estas p−k ajustes por mínimos cuadrados, seleccione la covariable que produzca el mejor ajuste. Tenga en cuenta que este proceso es bastante intensivo desde el punto de vista informático.