11 votos

¿Qué es lo que la fórmula y ~ x + 0 en R realmente calcula?

¿Cuál es la diferencia estadística entre hacer una regresión lineal en R con la fórmula establecida en y ~ x + 0 en lugar de y ~ x? ¿Cómo interpreto esos dos resultados diferentes?

19voto

Sean Hanley Puntos 2428

Agregar +0 (o -1) a una fórmula de modelo (por ejemplo, en lm()) en R suprime la intercepción. Generalmente, esto se considera algo malo de hacer; ver:

La pendiente estimada se calcula de manera diferente dependiendo de si la intercepción también se estima, a saber:

\begin{align} \hat\beta_1 &= \frac{\sum x_iy_i - \frac{\big(\sum x_i\big)\big(\sum y_i\big)}{N}}{\sum x_i^2 - \frac{\big(\sum x_i\big)^2}{N}} \tag{con intercepción} \\[15pt] \hat\beta_1 &= \frac{\sum x_iy_i}{\sum x_i^2} \tag{sin intercepción} \end{align}

Dado que la cantidad a restar (el "sustraendo") tanto en el numerador como en el denominador no es necesariamente $0$, la estimación de la pendiente está sesgada cuando se suprime la intercepción.

El valor de $R^2$ también se calcula de manera diferente; ver:

Aquí están las fórmulas subyacentes:

\begin{align} R^2 &= 1 - \frac{\sum (y_i - \hat y_i)^2}{\sum (y_i - \bar y)^2} \tag{con intercepción} \\[15pt] R^2 &= 1 - \frac{\sum (y_i - \hat y_i)^2}{\sum y_i^2} \tag{sin intercepción} \end{align}

0 votos

¡Gracias, gung! Si elimino el Intercepto, mi R-cuadrado múltiple mejora repentinamente. ¿Puedes ayudarme aquí?

6 votos

No existe una forma acordada de calcular r cuadrado sin una intercepción. El r cuadrado no tiene su interpretación habitual. Hacer regresión sin una intercepción es casi siempre una MUY mala idea.

0 votos

5voto

Repmat Puntos 1118

Depende del contexto (por supuesto), en el comando lm(...) en R suprimirá la intersección. Es decir, haces una regresión a través del origen.

Nota que la mayoría de los libros de texto sobre el tema de la regresión, te dirá que forzar la intersección (a cualquier valor) es una mala idea.

La interpretación de x no cambia, pero el valor (comparando con y sin intercepción) cambiará, a veces de manera muy significativa.

0 votos

¡Gracias, Repmat! Obtengo estimaciones muy diferentes si suprimo la intercepción en comparación con cuando no lo hago. Además, todas las pruebas t se vuelven altamente significativas. ¿Sabes por qué es esto?

2 votos

El intercepto absorberá cualquier variable con media no 0 que no esté contenida en el modelo. Con el intercepto eliminado, la varianza tiene que ir a algún lado. Por eso la mayoría de los libros, como regla general, afirma que la regresión sin un intercepto siempre está equivocada. Es decir, MCO siempre está sesgado e inconsistente en este caso (con algunas excepciones).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X