6 votos

una regresión por el origen

¿Por qué un par de variables sin correlación significativa y sin intercepción y pendiente de regresión significativas, tienen una regresión altamente significativa con un alto nivel de ajuste? $R^2$ cuando la regresión es forzada a pasar por el origen?

1 votos

0 votos

Esto no me parece un duplicado.

0 votos

@gung, ¿se acostumbra a rebatir hilos antiguos con ediciones menores como las que hiciste recientemente? Me he dado cuenta de que kjetil b halvorsen hace lo mismo. Lo pregunto sinceramente y no intento ser grosero.

15voto

Christoph Hanck Puntos 4143

Esta es una ilustración que simula $y$ y $x$ de forma independiente para que la verdadera pendiente sea cero. La media de $y$ es distinto de cero, de manera que el intercepto verdadero también es distinto de cero.

La línea LS sin interceptar debe comenzar en $(0,0)$ sin interceptar, y tratará de "alcanzar" los puntos de datos lo antes posible si $y$ tiene una media distinta de cero, lo que induce una clara pendiente (línea púrpura), mientras que la línea azul con intercepción puede comenzar en el nivel adecuado para $y$ de inmediato, de manera que no "necesita" ninguna pendiente.

Tenga en cuenta, sin embargo, que este ejemplo suele presentar un intercepto significativo en el modelo con intercepción.

enter image description here

n  <- 100
mu <- 10
y  <- rnorm(n, mean=mu)
x  <- runif(n)

plot(x, y, ylim=c(0, mu+3))
abline(v=0, lty=2)
abline(h=0, lty=2)
abline(lm(y~x), col="lightblue", lwd=2)
abline(lm(y~x-1), col="purple", lwd=2)
abline(h=mu, lwd=2)
legend("bottom", legend=c("with intercept","without intercept","truth"), 
       col=c("lightblue","purple","black"), lty=1, lwd=2)

También podemos analizar la cuestión teóricamente. Supongamos que el modelo verdadero es $$ y_i=\alpha+\epsilon_i, $$ es decir, $$ y_i=\alpha+\beta x_i+\epsilon_i\qquad\text{with}\qquad\beta=0 $$ o $E(y_i|x_i)=E(y_i)=\alpha$ .

Bajo este modelo y asumiendo $E(x_i\epsilon_i)=0$ para simplificar (es decir, no hay más errores de especificación que un intercepto ausente), el plim para el estimador OLS $\hat\beta=\sum_ix_iy_i/\sum_ix_i^2$ de una regresión de $y_i$ en $x_i$ sin constante viene dada por \begin {align*} \text {plim} \frac { \sum_ix_iy_i }{ \sum_ix_i ^2}&= \text {plim} \frac { \sum_ix_i ( \alpha + \epsilon_i )}{ \sum_ix_i ^2} \\ &= \text {plim} \frac { \frac {1}{n} \sum_ix_i ( \alpha + \epsilon_i )}{ \frac {1}{n} \sum_ix_i ^2} \\ &= \text {plim} \frac { \alpha\frac {1}{n} \sum_ix_i + \frac {1}{n} \sum_ix_i\epsilon_i }{ \frac {1}{n} \sum_ix_i ^2} \\ &= \frac { \alpha E(x_i)}{E(x_i^2)} \end {align*} Por ejemplo, en la ilustración numérica, tenemos $\alpha=10$ , $E(x_i)=1/2$ y $E(x_i^2)=1/3$ .

Por lo tanto, a menos que estemos en los casos especiales que $E(y_i)=0$ o $E(x_i)=0$ , OLS es incoherente para $\beta=0$ , $\text{plim}\hat\beta\neq0$ .

En el primer caso, no necesitamos una pendiente $\hat\beta$ de todos modos, en el segundo, una línea plana es "mejor" para OLS ya que los errores al cuadrado más pequeños para los valores ajustados positivos $x_i$ (en el caso de una pendiente estimada positiva) se vería sobrecompensada por errores al cuadrado mucho mayores para valores ajustados negativos para $x_i$ .

3 votos

Bonita ilustración.

1 votos

¿Estás seguro de que tus datos no tienen "ningún intercepto de regresión significativo"?

0 votos

@gung, tienes razón, he editado mi respuesta para destacar que las propiedades de mi ejemplo.

-1voto

Himi Puntos 1

Básicamente, para forzar una regresión a través de cero, el software estadístico introducirá una cantidad infinita de puntos de datos en (0,0). Esto hace que la fórmula R^2 normal sea inútil, y se utiliza una fórmula R^2 diferente. El resultado de esta fórmula diferente de R^2 es siempre muy alto. Usted puede ir a este enlace para obtener más específicos- https://www.riinu.me/2014/08/why-does-linear-model-without-an-intercept-forced-through-the-origin-have-a-higher-r-squared-value-calculated-by-r/

0 votos

Lo siento, pero no entiendo a qué te refieres cuando hablas de un número infinito de puntos de datos. ¿Puede explicarlo, por favor?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X