Daré la explicación más sencilla y luego ampliaré.
Supongamos que se reduce a cero, entonces su modelo se convierte efectivamente: $$y_t=\varepsilon_t$$ Sólo hay un problema con este modelo: $E[\varepsilon_t]=E[y_t]\ne 0$ que viola supuesto de exogeneidad de la regresión lineal. Por lo tanto, los coeficientes estimados no tendrán buenas propiedades, como la insesgadez.
Esto demuestra el objetivo principal del intercepto: captar la media. Creo que mucha gente no se da cuenta de la importancia del intercepto en la regresión lineal. A menudo se le considera el hermano pequeño del "verdadero" intercepto. $\beta$ del predictor. Sin embargo, como ya sabrá por la "regresión a través del origen", eliminar el intercepto del modelo suele tener consecuencias indeseables.
Ahora, para completar si encoges todos los coeficientes de buena fe $\beta$ y mantener la intercepción $\beta_0$ fuera, consigues esto: $$y_t=\beta_0+\varepsilon_t$$ $$E[y_t]=\beta_0+E[\varepsilon_t]$$ Aquí, todavía tenemos $E[\varepsilon_t]=0$ porque el intercepto capturará la media de los datos $\beta_0=\mu=E[y_t]$ .
Este modelo no es tan sexy como el modelo original, es más bien tonto, de hecho. Sin embargo, es un modelo legítimo. Usted podría ejecutar ANOVA en él, por ejemplo.
Concluyendo, hay que mantener el intercepto fuera de la contracción para que haga lo que tiene que hacer: capturar la media de la serie $\beta_0=E[y_t]$
0 votos
La librería liblinear para regresión logística utilizada en scikit-learn penaliza el término de sesgo (creo que se trata de un artefacto de implementación, el sesgo se maneja como una variable de entrada extra)