La respuesta corta
El objetivo de una regresión lineal simple es llegar a las mejores predicciones del y
variable, dados los valores de la x
variable. Se trata de un objetivo diferente al de intentar llegar a la mejor predicción de la x
variable, dados los valores de la y
variable.
Regresión lineal simple de y ~ x
le da el "mejor" modelo posible para predecir y
dado x
. Por lo tanto, si se ajusta un modelo para x ~ y
y lo invirtiera algebraicamente, ese modelo sólo podría hacerlo, en el mejor de los casos, tan bien como el modelo para y ~ x
. Pero invertir un modelo ajustado para x ~ y
normalmente lo hará peor en la predicción y
dado x
comparado con el "óptimo y ~ x
modelo, porque el "invertido x ~ y
El "modelo" se creó para cumplir un objetivo diferente.
Ilustración
Imagina que tienes el siguiente conjunto de datos:
Cuando se realiza una regresión OLS de y ~ x
se llega al siguiente modelo
y = 0.167 + 1.5*x
Esto optimiza las predicciones de y
haciendo las siguientes predicciones, que tienen errores asociados:
Las predicciones de la regresión OLS son óptimas en el sentido de que la suma de los valores de la columna de la derecha (es decir, la suma de los cuadrados) es lo más pequeña posible.
Cuando se ejecuta una regresión OLS de x ~ y
, se te ocurre un modelo diferente:
x = -0.07 + 0.64*y
Esto optimiza las predicciones de x haciendo las siguientes predicciones, con los errores asociados.
De nuevo, esto es óptimo en el sentido de que la suma de los valores de la columna de la derecha es lo más pequeña posible (igual a 0.071
).
Ahora, imagina que tratas de invertir sólo el primer modelo, y = 0.167 + 1.5*x
, utilizando el álgebra, dándole el modelo x = -0.11 + 0.67*x
.
Esto le daría las siguientes predicciones y los errores asociados:
La suma de los valores de la columna de la derecha es 0.074
que es mayor que la suma correspondiente del modelo que se obtiene de la regresión de x sobre y, es decir, el x ~ y
modelo. En otras palabras, el modelo "invertido y ~ x
modelo" está haciendo un peor trabajo en la predicción de x que el modelo OLS de x ~ y
.
1 votos
Eso no es cierto en general. Quizá sólo lo veas en tus datos. Pega este código: y = rnorm(10); x = rnorm(10); lm(y~x); lm(x~y); en R varias veces y verás que va en ambas direcciones.
0 votos
Eso es un poco diferente de lo que estaba describiendo. En tu ejemplo y no era una función de x en absoluto, así que no hay realmente ninguna "pendiente" (la 'a' en mi ejemplo).
0 votos
Lm(y~x) se ajusta al modelo $y = \beta_{0} + \beta_{1}x + \varepsilon$ por mínimos cuadrados (equivalente a la estimación ML cuando los errores son iid normales). Hay una pendiente.
2 votos
Su pregunta ha sido formulada y respondida (más o menos) en stats.stackexchange.com/questions/13126 y stats.stackexchange.com/questions/18434 . Sin embargo, creo que nadie ha aportado todavía una explicación sencilla y clara de las relaciones entre (a) la regresión de $Y$ vs $X$ (b) regresión de $X$ vs $Y$ (c) análisis de la correlación de $X$ y $Y$ (d) regresión de errores en las variables de $X$ y $Y$ y (e) ajustar una distribución normal bivariada a $(X,Y)$ . Este sería un buen lugar para dicha exposición :-).
0 votos
Utiliza este ejemplo modificado: y = rnorm(10); x = .5 + .1*y + rnorm(10); lm(y~x); lm(x~y); así que hay una relación. El fenómeno que describes sigue sin ocurrir siempre.
3 votos
Por supuesto, Macro es correcto: dado que x e y desempeñan papeles equivalentes en la cuestión, qué pendiente es más extrema es una cuestión de azar. Sin embargo, la geometría sugiere (incorrectamente) que cuando invertimos x e y en la regresión, deberíamos obtener la recíproco de la pendiente original. Eso nunca ocurre, excepto cuando x e y son linealmente dependientes. Esta pregunta puede interpretarse como una pregunta de por qué.
0 votos
En el ejemplo modificado, no me queda muy claro por qué se muestrea y de rnorm; para simplificar digamos que es 1:10 (o mejor aún, 1:100 para que haya más puntos de datos). En ese escenario, cuando he utilizado un número suficientemente grande de observaciones, he obtenido una pendiente más pronunciada cada vez.