Razón para no reducir el término de sesgo (intercepto) en la regresión

Question

Razón para no reducir el término de sesgo (intercepto) en la regresión

Preguntado el 18 de Febrero, 2014: Cuando se hizo la pregunta
655 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Para un modelo lineal $y=\beta_0+x\beta+\varepsilon$ el término de contracción es siempre $P(\beta) $ .

¿Cuál es la razón de que no reduzcamos el término de sesgo (intercepto) $\beta_0$ ? ¿Deberíamos reducir el término de sesgo en los modelos de redes neuronales?

Preguntado el 18 de Febrero, 2014 por David

0 votos

La librería liblinear para regresión logística utilizada en scikit-learn penaliza el término de sesgo (creo que se trata de un artefacto de implementación, el sesgo se maneja como una variable de entrada extra)

Comentado el 28 de Septiembre, 2015 por JanithaR

Answer 1

1 Respuestas

Answer 2

1voto

Aksakal Puntos 11351

Daré la explicación más sencilla y luego ampliaré.

Supongamos que se reduce a cero, entonces su modelo se convierte efectivamente: $$y_t=\varepsilon_t$$ Sólo hay un problema con este modelo: $E[\varepsilon_t]=E[y_t]\ne 0$ que viola supuesto de exogeneidad de la regresión lineal. Por lo tanto, los coeficientes estimados no tendrán buenas propiedades, como la insesgadez.

Esto demuestra el objetivo principal del intercepto: captar la media. Creo que mucha gente no se da cuenta de la importancia del intercepto en la regresión lineal. A menudo se le considera el hermano pequeño del "verdadero" intercepto. $\beta$ del predictor. Sin embargo, como ya sabrá por la "regresión a través del origen", eliminar el intercepto del modelo suele tener consecuencias indeseables.

Ahora, para completar si encoges todos los coeficientes de buena fe $\beta$ y mantener la intercepción $\beta_0$ fuera, consigues esto: $$y_t=\beta_0+\varepsilon_t$$ $$E[y_t]=\beta_0+E[\varepsilon_t]$$ Aquí, todavía tenemos $E[\varepsilon_t]=0$ porque el intercepto capturará la media de los datos $\beta_0=\mu=E[y_t]$ .

Este modelo no es tan sexy como el modelo original, es más bien tonto, de hecho. Sin embargo, es un modelo legítimo. Usted podría ejecutar ANOVA en él, por ejemplo.

Concluyendo, hay que mantener el intercepto fuera de la contracción para que haga lo que tiene que hacer: capturar la media de la serie $\beta_0=E[y_t]$

Respondido el 24 de Agosto, 2018 por Aksakal (11351 Puntos )

Razón para no reducir el término de sesgo (intercepto) en la regresión

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Razón para no reducir el término de sesgo (intercepto) en la regresión

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: