Esta es una ilustración que simula $y$ y $x$ de forma independiente para que la verdadera pendiente sea cero. La media de $y$ es distinto de cero, de manera que el intercepto verdadero también es distinto de cero.
La línea LS sin interceptar debe comenzar en $(0,0)$ sin interceptar, y tratará de "alcanzar" los puntos de datos lo antes posible si $y$ tiene una media distinta de cero, lo que induce una clara pendiente (línea púrpura), mientras que la línea azul con intercepción puede comenzar en el nivel adecuado para $y$ de inmediato, de manera que no "necesita" ninguna pendiente.
Tenga en cuenta, sin embargo, que este ejemplo suele presentar un intercepto significativo en el modelo con intercepción.
n <- 100
mu <- 10
y <- rnorm(n, mean=mu)
x <- runif(n)
plot(x, y, ylim=c(0, mu+3))
abline(v=0, lty=2)
abline(h=0, lty=2)
abline(lm(y~x), col="lightblue", lwd=2)
abline(lm(y~x-1), col="purple", lwd=2)
abline(h=mu, lwd=2)
legend("bottom", legend=c("with intercept","without intercept","truth"),
col=c("lightblue","purple","black"), lty=1, lwd=2)
También podemos analizar la cuestión teóricamente. Supongamos que el modelo verdadero es $$ y_i=\alpha+\epsilon_i, $$ es decir, $$ y_i=\alpha+\beta x_i+\epsilon_i\qquad\text{with}\qquad\beta=0 $$ o $E(y_i|x_i)=E(y_i)=\alpha$ .
Bajo este modelo y asumiendo $E(x_i\epsilon_i)=0$ para simplificar (es decir, no hay más errores de especificación que un intercepto ausente), el plim para el estimador OLS $\hat\beta=\sum_ix_iy_i/\sum_ix_i^2$ de una regresión de $y_i$ en $x_i$ sin constante viene dada por \begin {align*} \text {plim} \frac { \sum_ix_iy_i }{ \sum_ix_i ^2}&= \text {plim} \frac { \sum_ix_i ( \alpha + \epsilon_i )}{ \sum_ix_i ^2} \\ &= \text {plim} \frac { \frac {1}{n} \sum_ix_i ( \alpha + \epsilon_i )}{ \frac {1}{n} \sum_ix_i ^2} \\ &= \text {plim} \frac { \alpha\frac {1}{n} \sum_ix_i + \frac {1}{n} \sum_ix_i\epsilon_i }{ \frac {1}{n} \sum_ix_i ^2} \\ &= \frac { \alpha E(x_i)}{E(x_i^2)} \end {align*} Por ejemplo, en la ilustración numérica, tenemos $\alpha=10$ , $E(x_i)=1/2$ y $E(x_i^2)=1/3$ .
Por lo tanto, a menos que estemos en los casos especiales que $E(y_i)=0$ o $E(x_i)=0$ , OLS es incoherente para $\beta=0$ , $\text{plim}\hat\beta\neq0$ .
En el primer caso, no necesitamos una pendiente $\hat\beta$ de todos modos, en el segundo, una línea plana es "mejor" para OLS ya que los errores al cuadrado más pequeños para los valores ajustados positivos $x_i$ (en el caso de una pendiente estimada positiva) se vería sobrecompensada por errores al cuadrado mucho mayores para valores ajustados negativos para $x_i$ .
1 votos
Posible duplicado de ¿Cuáles son las ventajas y desventajas de la regresión al origen?
0 votos
Esto no me parece un duplicado.
0 votos
@gung, ¿se acostumbra a rebatir hilos antiguos con ediciones menores como las que hiciste recientemente? Me he dado cuenta de que kjetil b halvorsen hace lo mismo. Lo pregunto sinceramente y no intento ser grosero.
0 votos
@gammer, no sé cómo evaluar si es "habitual". De vez en cuando editamos/reboteamos hilos antiguos, no hay ninguna norma que lo prohíba. Creo que tener hilos debidamente etiquetados es muy importante para la organización del material en el sitio. Pero cuando lo hago, sólo hago un máximo de 5-6 a la vez, y generalmente cuando el tráfico es lento.
0 votos
@gung, ok. Sólo por curiosidad. Parecía un poco extraño. Creo que kjetil hizo como 10 en una fila, pero sólo unos pocos de ellos eran muy viejos...Y fue sobre todo la eliminación de la palabra "gracias" de un 1 + año de edad mensajes.
1 votos
Yo no rebatiría un hilo antiguo sólo para quitar el "gracias", @gammer. Pero si edito un hilo, trato de poner todo eso al mismo tiempo.