La regresión por pasos hacia delante es un método popular, pero he encontrado al menos tres versiones diferentes. Me preguntaba cuál es la más popular y cuál está implementada en R.
-
Sea $p$ sea el número total de covariables. Una versión afirma que, dado $k$ se han seleccionado las covariables, busque la de $p-k$ covariables más correlacionadas con el residuo. A continuación, incluya esta variable y realice una regresión del antiguo residuo sobre esta nueva variable, obteniendo un nuevo residuo. Mientras tanto, mantenga todas las $k$ coeficientes ajustados iguales.
-
Otra versión difiere de la primera en que, tras incluir la nueva variable, ajusta la respuesta $\hat{y}$ en el $k+1$ variables. En otras palabras, el $k$ las covariables incluidas anteriormente también tienen coeficientes actualizados.
-
También he encontrado una versión como la siguiente. Para cada uno de los $p-k$ covariables, considere el modelo aumentado formado por la adición de esta covariable a la $k$ covariables originales. A continuación, realice una regresión de la respuesta $y$ en el {\em $k+1$ covariables. Entre estas $p-k$ ajustes por mínimos cuadrados, seleccione la covariable que produzca el mejor ajuste. Tenga en cuenta que este proceso es bastante intensivo desde el punto de vista informático.