La línea de regresión no es (siempre) lo mismo que la verdadera relación
Puede tener alguna relación causal "verdadera" con una ecuación en forma lineal $a+bx$ como
$$y := a + bx + \epsilon$$
Donde el $:=$ significa que el valor de $a+bx$ con algo de ruido añadido $\epsilon$ se asigna a $y$ .
Las líneas de regresión ajustadas y ~ x
o x ~ y
no significan lo mismo que esa relación causal (incluso cuando en la práctica la expresión de una de las líneas de regresión puede coincidir con la expresión de la relación causal "verdadera")
Relación más precisa entre las pendientes
Para dos regresiones lineales simples conmutadas:
$$Y = a_1 + b_1 X\\X = a_2 + b_2 Y$$
se pueden relacionar las pendientes de la siguiente manera:
$$b_1 = \rho^2 \frac{1}{b_2} \leq \frac{1}{b_2}$$
Así que las pendientes son no cada uno inverso.
Intuición
La razón es que
- Las líneas de regresión y las correlaciones sí no necesariamente corresponden uno a uno a una relación causal.
- Las líneas de regresión se refieren más directamente a una probabilidad condicional o a la mejor predicción.
Puedes imaginar que la probabilidad condicional se refiere a la fuerza de la relación. Las líneas de regresión lo reflejan y las pendientes de las líneas pueden ser poco profundas cuando la fuerza de la relación es pequeña o empinadas cuando la fuerza de la relación es fuerte. Las pendientes no son simplemente la inversa de cada una.
Ejemplo
Si dos variables $X$ y $Y$ se relacionan entre sí mediante alguna relación lineal (causal) $$Y = \text{a little bit of $ X + $ a lot of error}$$ Entonces puedes imaginar que sería no ser bueno para invertir completamente esa relación en caso de que desee expresar $X$ en función de un valor determinado de $Y$ .
En lugar de
$$X = \text{a lot of $ Y + $ a little of error}$$
sería mejor utilizar también
$$X = \text{a little bit of $ Y + $ a lot of error}$$
Vea las siguientes distribuciones de ejemplo con sus respectivas líneas de regresión. Las distribuciones son normales multivariantes con $\Sigma_{11} \Sigma_{22}=1$ y $\Sigma_{12} = \Sigma_{21} = \rho$
Los valores esperados condicionales (lo que se obtendría en una regresión lineal) son
$$\begin{array}{} E(Y|X) &=& \rho X \\ E(X|Y) &=& \rho Y \end{array}$$
y en este caso con $X,Y$ una distribución normal multivariante, entonces las distribuciones condicionales son
$$\begin{array}{} Y|X & \sim & N(\rho X,1-\rho^2) \\ X|Y & \sim & N(\rho Y,1-\rho^2) \end{array}$$
Así que puedes ver la variable Y como una parte $\rho X$ y una parte de ruido con varianza $1-\rho^2$ . Lo mismo ocurre a la inversa.
Cuanto mayor sea el coeficiente de correlación $\rho$ cuanto más cerca estén las dos líneas. Pero cuanto más baja sea la correlación, menos fuerte será la relación y menos empinadas serán las líneas (esto es cierto para ambos líneas Y ~ X
y X ~ Y
)
1 votos
Eso no es cierto en general. Quizá sólo lo veas en tus datos. Pega este código: y = rnorm(10); x = rnorm(10); lm(y~x); lm(x~y); en R varias veces y verás que va en ambas direcciones.
0 votos
Eso es un poco diferente de lo que estaba describiendo. En tu ejemplo y no era una función de x en absoluto, así que no hay realmente ninguna "pendiente" (la 'a' en mi ejemplo).
0 votos
Lm(y~x) se ajusta al modelo $y = \beta_{0} + \beta_{1}x + \varepsilon$ por mínimos cuadrados (equivalente a la estimación ML cuando los errores son iid normales). Hay una pendiente.
2 votos
Su pregunta ha sido formulada y respondida (más o menos) en stats.stackexchange.com/questions/13126 y stats.stackexchange.com/questions/18434 . Sin embargo, creo que nadie ha aportado todavía una explicación sencilla y clara de las relaciones entre (a) la regresión de $Y$ vs $X$ (b) regresión de $X$ vs $Y$ (c) análisis de la correlación de $X$ y $Y$ (d) regresión de errores en las variables de $X$ y $Y$ y (e) ajustar una distribución normal bivariada a $(X,Y)$ . Este sería un buen lugar para dicha exposición :-).
0 votos
Utiliza este ejemplo modificado: y = rnorm(10); x = .5 + .1*y + rnorm(10); lm(y~x); lm(x~y); así que hay una relación. El fenómeno que describes sigue sin ocurrir siempre.
3 votos
Por supuesto, Macro es correcto: dado que x e y desempeñan papeles equivalentes en la cuestión, qué pendiente es más extrema es una cuestión de azar. Sin embargo, la geometría sugiere (incorrectamente) que cuando invertimos x e y en la regresión, deberíamos obtener la recíproco de la pendiente original. Eso nunca ocurre, excepto cuando x e y son linealmente dependientes. Esta pregunta puede interpretarse como una pregunta de por qué.
0 votos
En el ejemplo modificado, no me queda muy claro por qué se muestrea y de rnorm; para simplificar digamos que es 1:10 (o mejor aún, 1:100 para que haya más puntos de datos). En ese escenario, cuando he utilizado un número suficientemente grande de observaciones, he obtenido una pendiente más pronunciada cada vez.