65 votos

Efecto de cambiar la respuesta y la variable explicativa en la regresión lineal simple

Digamos que existe alguna relación "verdadera" entre $y$ y $x$ tal que $y = ax + b + \epsilon$ , donde $a$ y $b$ son constantes y $\epsilon$ es ruido normal i.i.d. Cuando genero datos al azar de ese código R: x <- 1:100; y <- ax + b + rnorm(length(x)) y luego ajustar un modelo como y ~ x Obviamente, obtengo estimaciones razonablemente buenas para $a$ y $b$ .

Si cambio la función de las variables como en (x ~ y) sin embargo, y luego reescribir el resultado para $y$ sea una función de $x$ la pendiente resultante es siempre más pronunciada (más negativa o más positiva) que la estimada por el y ~ x regresión. Estoy tratando de entender exactamente por qué es eso y agradecería si alguien pudiera darme una intuición de lo que está pasando allí.

1 votos

Eso no es cierto en general. Quizá sólo lo veas en tus datos. Pega este código: y = rnorm(10); x = rnorm(10); lm(y~x); lm(x~y); en R varias veces y verás que va en ambas direcciones.

0 votos

Eso es un poco diferente de lo que estaba describiendo. En tu ejemplo y no era una función de x en absoluto, así que no hay realmente ninguna "pendiente" (la 'a' en mi ejemplo).

0 votos

Lm(y~x) se ajusta al modelo $y = \beta_{0} + \beta_{1}x + \varepsilon$ por mínimos cuadrados (equivalente a la estimación ML cuando los errores son iid normales). Hay una pendiente.

51voto

user8076 Puntos 16

Sólo para ilustrar la respuesta de Dilip: en las siguientes imágenes,

  • los puntos negros son puntos de datos ;
  • a la izquierda, la línea negra es la línea de regresión obtenida por y ~ x que minimizan los cuadrados de la longitud de los segmentos rojos;
  • a la derecha, la línea negra es la línea de regresión obtenida por x ~ y que minimizan los cuadrados de la longitud de los segmentos rojos.

regression lines

Editar (regresión de rectángulos mínimos)

Si no hay una forma natural de elegir una "respuesta" y una "covariable", sino que las dos variables son interdependientes, es posible que desee conservar un papel simétrico para $y$ y $x$ ; en este caso se puede utilizar la "regresión de los mínimos rectángulos".

  • escribir $Y = aX + b + \epsilon$ como siempre;
  • denotan $\hat y_i = a x_i + b$ y $\hat x_i = {1\over a} (y_i - b)$ las estimaciones de $Y_i$ condicionado a $X = x_i$ y de $X_i$ condicionado a $Y = y_i$ ;
  • minimizar $\sum_i | x_i - \hat x_i | \cdot | y_i - \hat y_i|$ que lleva a $$\hat y = \mathrm{sign}\left(\mathrm{cov}(x,y)\right){\hat\sigma_y \over \hat\sigma_x} (x-\overline x) + \overline y. $$

Aquí hay una ilustración con los mismos puntos de datos, para cada punto, un "rectángulo" se calcula como el producto de la longitud de dos segmentos rojos, y la suma de los rectángulos se minimiza. No sé mucho sobre las propiedades de esta regresión y no encuentro mucho con google.

least rectangles

0 votos

+1 Me encantan las fotos. Nunca había oído hablar de la "regresión de los mínimos rectángulos", pero me recuerda mucho a otro puesto que (al menos visualmente) lo conecta con el coeficiente de correlación.

0 votos

@whuber Creo que a todos los estadísticos les gustan las fotos, al menos a todos los estadísticos aplicados :) Gracias por la dirección de este post, tu respuesta es muy chula nunca se me había ocurrido. Me pregunto si me atrevería a utilizarla en la enseñanza, mis alumnos podrían estar un poco descolocados por este tipo de argumentación.

14 votos

Algunas notas: ( 1 ) Si no me equivoco, parece que la "regresión de los mínimos rectángulos" es equivalente a la solución obtenida de tomar la primera componente principal sobre la matriz $\mathbf X = (\mathbf y, \mathbf x)$ después de centrar y reescalar para tener una varianza unitaria y luego hacer una sustitución inversa. (cont.)

32voto

Dilip Sarwate Puntos 16161

Dado $n$ puntos de datos $(x_i,y_i), i = 1,2,\ldots n$ en el avión, dibujemos una línea recta $y = ax+b$ . Si predecimos $ax_i+b$ como el valor $\hat{y}_i$ de $y_i$ entonces el error es $(y_i-\hat{y}_i) = (y_i-ax_i-b)$ El error al cuadrado es $(y_i-ax_i-b)^2$ y el error total al cuadrado $\sum_{i=1}^n (y_i-ax_i-b)^2$ . Pedimos

¿Qué elección de $a$ y $b$ minimiza $S =\displaystyle\sum_{i=1}^n (y_i-ax_i-b)^2$ ?

Desde $(y_i-ax_i-b)$ es la distancia vertical de $(x_i,y_i)$ de la línea recta, estamos pidiendo la línea tal que la suma de los cuadrados de las distancias verticales de los puntos a la la recta sea lo más pequeña posible. Ahora $S$ es un función cuadrática de ambos $a$ y $b$ y alcanza su mínimo valor cuando $a$ y $b$ son tales que $$\begin{align*} \frac{\partial S}{\partial a} &= 2\sum_{i=1}^n (y_i-ax_i-b)(-x_i) &= 0\\ \frac{\partial S}{\partial b} &= 2\sum_{i=1}^n (y_i-ax_i-b)(-1) &= 0 \end{align*}$$ De la segunda ecuación, obtenemos $$b = \frac{1}{n}\sum_{i=1}^n (y_i - ax_i) = \mu_y - a\mu_x$$ donde $\displaystyle \mu_y = \frac{1}{n}\sum_{i=1}^n y_i, ~ \mu_x = \frac{1}{n}\sum_{i=1}^n x_i$ son los valores medios aritméticos de los $y_i$ y el $x_i$ respectivamente. Sustituyendo en la primera ecuación, obtenemos $$ a = \frac{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}{ \left( \frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2}. $$ Así, la línea que minimiza $S$ puede expresarse como $$y = ax+b = \mu_y + \left(\frac{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}{ \left( \frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2}\right) (x - \mu_x), $$ y el valor mínimo de $S$ es $$S_{\min} = \frac{\left[\left(\frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2\right] \left[\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2\right] - \left[\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y\right]^2}{\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2}.$$

Si intercambiamos los papeles de $x$ y $y$ , dibujar una línea $x = \hat{a}y + \hat{b}$ , y pedir los valores de $\hat{a}$ y $\hat{b}$ que minimizan $$T = \sum_{i=1}^n (x_i - \hat{a}y_i - \hat{b})^2,$$ es decir, queremos la línea tal que el suma de los cuadrados de los horizontal distancias de los puntos de la línea es lo más pequeña posible, entonces obtenemos

$$x = \hat{a}y+\hat{b} = \mu_x + \left(\frac{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}{ \left( \frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2}\right) (y - \mu_y) $$ y el valor mínimo de $T$ es $$T_{\min} = \frac{\left[\left(\frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2\right] \left[\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2\right] - \left[\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y\right]^2}{\left(\frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2}.$$

Obsérvese que ambas líneas pasan por el punto $(\mu_x,\mu_y)$ pero las pendientes son $$a = \frac{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}{ \left( \frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2},~~ \hat{a}^{-1} = \frac{ \left( \frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2}{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}$$ son diferentes en general. De hecho, como señala @whuber en un comentario, las pendientes son las mismas cuando todos los puntos $(x_i,y_i)$ se encuentran en la misma línea recta. Para ver esto, observa que $$\hat{a}^{-1} - a = \frac{S_{\min}}{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y} = 0 \Rightarrow S_{\min} = 0 \Rightarrow y_i=ax_i+b, i=1,2,\ldots, n. $$

0 votos

Gracias! abs(correlación) < 1 explica por qué la pendiente era sistemáticamente más pronunciada en el caso invertido.

0 votos

(+1) pero he añadido una respuesta con sólo una ilustración de lo que acabas de decir, ya que tengo una mente geométrica :)

0 votos

Respuesta de clase (+1)

18voto

patfla Puntos 1

Sólo una breve nota sobre por qué se ve la pendiente más pequeña para una regresión. Ambas pendientes dependen de tres números: las desviaciones estándar de $x$ y $y$ ( $s_{x}$ y $s_{y}$ ), y la correlación entre $x$ y $y$ ( $r$ ). La regresión con $y$ como respuesta tiene pendiente $r\frac{s_{y}}{s_{x}}$ y la regresión con $x$ como respuesta tiene pendiente $r\frac{s_{x}}{s_{y}}$ por lo que la relación entre la primera pendiente y la recíproca de la segunda es igual a $r^2\leq 1$ .

Así, cuanto mayor sea la proporción de varianza explicada, más próximas serán las pendientes obtenidas en cada caso. Obsérvese que la proporción de varianza explicada es simétrica e igual a la correlación al cuadrado en la regresión lineal simple.

12voto

user164061 Puntos 281

La línea de regresión no es (siempre) lo mismo que la verdadera relación

Puede tener alguna relación causal "verdadera" con una ecuación en forma lineal $a+bx$ como

$$y := a + bx + \epsilon$$

Donde el $:=$ significa que el valor de $a+bx$ con algo de ruido añadido $\epsilon$ se asigna a $y$ .

Las líneas de regresión ajustadas y ~ x o x ~ y no significan lo mismo que esa relación causal (incluso cuando en la práctica la expresión de una de las líneas de regresión puede coincidir con la expresión de la relación causal "verdadera")


Relación más precisa entre las pendientes

Para dos regresiones lineales simples conmutadas:

$$Y = a_1 + b_1 X\\X = a_2 + b_2 Y$$

se pueden relacionar las pendientes de la siguiente manera:

$$b_1 = \rho^2 \frac{1}{b_2} \leq \frac{1}{b_2}$$

Así que las pendientes son no cada uno inverso.


Intuición

La razón es que

  • Las líneas de regresión y las correlaciones sí no necesariamente corresponden uno a uno a una relación causal.
  • Las líneas de regresión se refieren más directamente a una probabilidad condicional o a la mejor predicción.

Puedes imaginar que la probabilidad condicional se refiere a la fuerza de la relación. Las líneas de regresión lo reflejan y las pendientes de las líneas pueden ser poco profundas cuando la fuerza de la relación es pequeña o empinadas cuando la fuerza de la relación es fuerte. Las pendientes no son simplemente la inversa de cada una.

Ejemplo

Si dos variables $X$ y $Y$ se relacionan entre sí mediante alguna relación lineal (causal) $$Y = \text{a little bit of $ X + $ a lot of error}$$ Entonces puedes imaginar que sería no ser bueno para invertir completamente esa relación en caso de que desee expresar $X$ en función de un valor determinado de $Y$ .

En lugar de

$$X = \text{a lot of $ Y + $ a little of error}$$

sería mejor utilizar también

$$X = \text{a little bit of $ Y + $ a lot of error}$$

Vea las siguientes distribuciones de ejemplo con sus respectivas líneas de regresión. Las distribuciones son normales multivariantes con $\Sigma_{11} \Sigma_{22}=1$ y $\Sigma_{12} = \Sigma_{21} = \rho$

example

Los valores esperados condicionales (lo que se obtendría en una regresión lineal) son

$$\begin{array}{} E(Y|X) &=& \rho X \\ E(X|Y) &=& \rho Y \end{array}$$

y en este caso con $X,Y$ una distribución normal multivariante, entonces las distribuciones condicionales son

$$\begin{array}{} Y|X & \sim & N(\rho X,1-\rho^2) \\ X|Y & \sim & N(\rho Y,1-\rho^2) \end{array}$$

Así que puedes ver la variable Y como una parte $\rho X$ y una parte de ruido con varianza $1-\rho^2$ . Lo mismo ocurre a la inversa.

Cuanto mayor sea el coeficiente de correlación $\rho$ cuanto más cerca estén las dos líneas. Pero cuanto más baja sea la correlación, menos fuerte será la relación y menos empinadas serán las líneas (esto es cierto para ambos líneas Y ~ X y X ~ Y )

7voto

stiduck Puntos 450

Una forma sencilla de ver esto es observar que, si para el modelo verdadero $y=\alpha+\beta x+\epsilon$ se realizan dos regresiones:

  • $y=a_{y\sim x}+b_{y\sim x} x$
  • $x=a_{x\sim y}+b_{x\sim y} y$

Entonces tenemos, utilizando $b_{y\sim x}=\frac{cov(x,y)}{var(x)}=\frac{cov(x,y)}{var(y)}\frac{var(y)}{var(x)}$ :

$$b_{y\sim x}=b_{x\sim y}\frac{var(y)}{var(x)}$$

Así que el hecho de que se obtenga una pendiente más pronunciada o no, sólo depende de la proporción $\frac{var(y)}{var(x)}$ . Esta relación es igual a, basándose en el modelo verdadero supuesto:

$$\frac{var(y)}{var(x)}=\frac{\beta^2 var(x) + var(\epsilon)}{var(x)}$$

Enlace con otras respuestas

Se puede relacionar este resultado con las respuestas de otros, que dijeron que cuando $R^2=1$ debería ser el recíproco. De hecho, $R^2=1\Rightarrow var(\epsilon) = 0$ y también, $b_{y\sim x}=\beta$ (sin error de estimación), Por lo tanto:

$$R^2=1\Rightarrow b_{y\sim x}=b_{x\sim y}\frac{\beta^2 var(x) + 0}{var(x)}=b_{x\sim y}\beta^2$$

Así que $b_{x\sim y}=1/\beta$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X